ubuntu20.04\22.04 + GTX3060(直接硬盘安装)

准备

工控台ubuntu20.04.06
显卡GTX3060驱动NVIDIA-Linux-x86_64-535.129.03.run
安装启动盘制作:

制作U盘安装盘工具rufus-4.3.exe (搜索网上自行下载),步骤都是下一步式,引导类型选择镜像文件,文件系统类型GPT,簇大小默认4K(其他大小,没有研究,就用默认),然后直接开始待十几分钟制作完成。

安装Ubuntu20.04

BIOS中secure boot选disable,另外,设置优先从U盘启动,然后插入上面制作好的启动盘,上电开机就进入Ubuntu安装界面,具体Ubuntu安装步骤不介绍,不会可以百度下。

安装GTX3060驱动

准备
$ sudo apt update (系统列新,同时会更新源,可选)
$ sudo aptupgrade  (更新软件,可选)
$ sudo apt install gcc g++ make
$ sudo apt install build-essential libglvnd-dev pkg-config   (libglvnd-dev如果未提前安装,安装nvidia显卡驱动时会报提示的)
$ sudo apt install vim vsftp ssh net-tools  (可选)
安装pip3 (本人安装显卡驱动时没有安装pip3相关,做个记录,需要安装和升级pip3可以参考)
#安装
sudo apt install python3-pip
#升级
sudo pip3 install --upgrade pip
#如果要卸载,使用命令:
sudo apt-get remove python3-pip
禁用 Nouveau驱动

ubuntu自带的nvidia通用驱动,做开发需要根据显卡类型安装相应驱动

sudo vim /etc/modprobe.d/blacklist-nouveau.conf
添加两行语句:
blacklist nouveau
options nouveau modeset=0
更新initramfs
sudo update-initramfs -u
重启
reboot
验证,终端输入语句,
lsmod | grep nouveau
#没有输出说明操作成功
更新显卡信息
sudo update-pciids
lspci | grep -i nvidia 查看有没有对应显卡的名称,比如我的GTX3060
安装驱动
$sudo ./NVIDIA-Linux-x86_64-535.129.03.run -m=kernel-open
* 32位库不用装
* x-config选yes

以下,如果有需要,可以在安装前加上这些配置,本人安装时直接上面默认装了。

下面这些安装参数,根据个人需要是否要加,目前本人安装是没有使用:
./NVIDIA-Linux-x86_64-535.129.03.run -m=kernel-open -no-x-check -no-nouveau-check -no-opengl-files
#-no-x-check:安装驱动时关闭X服务
#-no-nouveau-check:安装驱动时禁用nouveau
#-no-opengl-files:只安装驱动文件,不安装OpenGL文件
配置显卡 (不配置,提示No devices were found)
$ echo "options nvidia NVreg_OpenRmEnableUnsupportedGpus=1" | sudo tee /etc/modprobe.d/nvreg_fix.conf > /dev/null
$ sudo update-initramfs -u
$ sudo reboot
查看NVIDIA版本检验是否安装完成
$ nvidia-smi

到这里,GTX3060的显卡驱动就安装完了,下面就可以安装配置用于深度学习的开发环境,比如Pytorch环境、TensorFlow环境等,这里不介绍。

下面再介绍一下卸载、在线安装的方法,如果有需要可以参考。

卸载GPU网卡驱动方法
$ sudo apt purge -y '^nvidia-*' '^libnvidia-*'
$ sudo apt -y autoremove
$ sudo apt autoclean
在线安装显卡驱动
1)查看显卡型号信息
lspci | grep -i vga (或lshw -numeric -C display)
或
lspci | grep -i nvidia
2)查看当前ubuntu可以使用的显卡驱动
$ubuntu-drivers devices
== /sys/devices/pci0000:00/0000:00:01.0/0000:01:00.0 ==
modalias : pci:v000010DEd00002504sv00001458sd00004072bc03sc00i00
vendor   : NVIDIA Corporation
model    : GA106 [GeForce RTX 3060 Lite Hash Rate]
manual_install: True
driver   : nvidia-driver-470-server - distro non-free
driver   : nvidia-driver-515-server - distro non-free
driver   : nvidia-driver-510-server - distro non-free
driver   : nvidia-driver-470 - distro non-free
driver   : nvidia-driver-510 - distro non-free
driver   : nvidia-driver-520 - distro non-free
driver   : nvidia-driver-515-open - distro non-free
driver   : nvidia-driver-520-open - distro non-free recommended
driver   : nvidia-driver-515 - distro non-free
driver   : xserver-xorg-video-nouveau - distro free builtin
3)卸载已有驱动 (同上)
4)禁用nouveau (同上)
5)安装依赖库 (同上)
6)在线安装  sudo apt-get install nvidia-driver-xxx(xxx为版本号)
7)查看NVIDIA版本检验是否安装完成
$ nvidia-smi

NVIDIA驱动失效简单解决方案

执行nvidia-smi指令后,报错:

NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.

解决方法:

1)查看本机连接不上的驱动版本
ls -l /usr/src/    可以看到有一个nvidia的文件,比如nvidia-535.129.03
2)安装dkms  DKMS(Dynamic Kernel Module Support)是DELL的一个项目,可以做到内核变更后自动编译模块,适配新内核
sudo apt-get install dkms
3)使用dkms重新安装适合内核的驱动
sudo dkms install -m nvidia -v 470.103.01

开机时报ACPI错

这是与ACPI规范冲突,可以在BIOS中禁止,或ubuntu安装时,按e进行grup,在最后面添加acpi=off,然后ctrl+X从命令启动.

别人说

网上还有人说,在安装ubuntu时,在grup配置中禁用nouveau,本人安装时第一次没有做这步同样安装成功,后来也遇到一次安装没有用这个不成功,用了就成功,但这两
次安装不同的是,第一次没有连网络安装,安装后用的还是wlan(信号不是很好),第二次是连的有线网,
总之以后都做下禁止默认驱动的动作就完事,记录下:
联想E430c:
这里会有一个坑,Ubuntu启动时卡在logo页面,无法继续安装步骤,问题原因是显卡驱动与Ubuntu系统不兼容,解决方法:
移动到 Install Ubuntu 此项上,然后 输入 e (edit模式),进入到编辑模式界面
去掉后面的 splash 后面的 — 修改成如下
quiet splash nouveau.modeset=0
其他型号电脑可以修改成: quiet splash nomodeset
根据具体情况尝试修改:https://itsfoss.com/fix-ubuntu-freezing/
然后F10重启,重新安装

ubuntu22.04环境下显卡驱动安装

1)卡在ubuntu的Logo界面无法进行下去 — ubuntu22.04版本较新(自带的nouveau通用显卡驱动)与实际显卡驱动不兼容
问题原因是显卡驱动与Ubuntu系统不兼容
移动到 Install Ubuntu 此项上,然后 输入 e (edit模式),进入到编辑模式界面找到
quiet splash —
替换为:
quiet splash nomodeset (联想E430c 替换为:quiet splash nouveau.modeset=0)
然后,ctrl+X从命令启动。
2)安装NVxxxx.run显卡驱动报“You appear to be running an X server…"
网上有人说:sudo service lightdm stop 或者 sudo stop lightdm,然后sudo init 3
我尝试关掉lightdm,显示没有这个服务,直接init 3进入命令行模式安装即可。
其他安装同上ubuntu20.04.