5820服务器安装cuda

字数统计: 684阅读时长: 3 min

 2021/07/15 

1. 背景

最近接收了一台戴尔5820服务器，这个服务器之前用于机器学习的开发，配置一般，16C/128G/1.5T/Quadro 4000的配置。要命的是
这个服务器安装的是Windows 10系统，而不是Ubuntu或者CentOS等Linux环境。
本文主要记录下服务器重新安装了Ubuntu20.04 LTS后如何安装CUDA的过程。

选择安装Ubuntu 20这个版本是因为Ubuntu18版本安装失败。原因是安装过程中存在擦除磁盘擦不掉，重试多次后安装失败。

2. 设置驱动

首先需要设置使用Quadro显卡的驱动作为输出，而不是内置的nouveau。如下图，图片来自网上（侵删）。
设置驱动
重启后，可以使用nvidia-smi来查看Quadro支持的cuda的版本号信息。

# nvidia-smi
Thu Jul 15 14:11:06 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.27.04    Driver Version: 460.27.04    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Quadro P4000        Off  | 00000000:65:00.0 Off |                  N/A |
| 46%   36C    P8     5W / 105W |     15MiB /  8118MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A      1149      G   /usr/lib/xorg/Xorg                  9MiB |
|    0   N/A  N/A      1335      G   /usr/bin/gnome-shell                2MiB |
+-----------------------------------------------------------------------------+

可以看到，CUDA的版本为11.2。

2.1 下载安装CUDA

接下来从英伟达官方下载11.2版本的CUDA。
下载CUDA
按照下图选择本地安装方式并下载相应文件：

下载结束后，需要设置下使用gcc-7的版本（有可能gcc-9也是能够可以用的，没有验证过）

#apt-get install gcc-7 g++-7
#sudo apt-get install gcc-7 g++-7
#sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-7 10
#sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-9 100
#sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-7 10
#sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-9 100
#sudo update-alternatives --display gcc
gcc - manual mode
  link best version is /usr/bin/gcc-9
  link currently points to /usr/bin/gcc-7
  link gcc is /usr/bin/gcc
/usr/bin/gcc-7 - priority 10
/usr/bin/gcc-9 - priority 100

这里有一个坑，需要先停掉使用这个独立显卡的窗口，让kernel释放nvidia的一些ko，这样CUDA可以编译通过

1
2
3

sudo systemctl isolate multi-user.target
sudo modprobe -r nvidia-drm
#先释放多窗口和ko

然后安装

1	#sudo sh cuda_11.2.0_460.27.04_linux.run

安装过程需要同意EULA以及选择不安装的组件，这里就不截图了。
安装结束后需要设置PATH等路径。

1 2	export PATH=$PATH:/usr/local/cuda-11.0/bin export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.0/lib64

3. 检查安装是否成功

在terminal中输入nvcc -V，若有输出中，则安装成功。

#nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2020 NVIDIA Corporation
Built on Mon_Nov_30_19:08:53_PST_2020
Cuda compilation tools, release 11.2, V11.2.67
Build cuda_11.2.r11.2/compiler.29373293_0

原文作者：warvyvr, warvyvr@gmail.com

原文链接：http://warvyvr.github.io/2021/07/15/5820-quadro-4000/

发表日期：July 15th 2021, 1:57:58 pm

更新日期：May 9th 2022, 12:20:57 am

Next Post

ElasticSearch中JVM使用问题
Previous Post

CA的证书分发的过程

CATALOG

1. 1. 背景
2. 2. 设置驱动
1. 2.1. 2.1 下载安装CUDA
3. 3. 检查安装是否成功