记一次nvidia掉驱动
摘要:作者Gary记录了一次NVIDIA驱动故障的修复过程。在nvidia-smi无法连接驱动后,通过检查硬件状态、安装dkms、重装驱动(535版本)等步骤仍无法解决。最终通过终止NVIDIA相关进程并重启nvidia-persistenced服务成功恢复驱动功能。整个过程涉及硬件确认、驱动版本管理、内核模块安装和进程控制等多个环节。(149字)
Author: Gary
Date: 2025.7.28
参考资料:
https://medium.com/@yt.chen/nvidia-smi-%E9%80%A3%E4%B8%8D%E5%88%B0-driver-%E7%9A%84%E8%87%AA%E6%95%91%E6%96%B9%E6%B3%95-69cbed16171d
故障:执行nvidia-smi时提示:
NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
排查过程:
1.重启后先执行了 lspci | grep nvidia看到N卡硬件还在,说明N卡是正常启动了的只是驱动故障
2.然后根据参考资料的指示,先通过ls /usr/src | grep nvidia查看了当前n卡驱动的版本,然后通过sudo apt-get install dkms安装了dkms(不知道是啥,好像是管理内核模块用的),然后使用以下指令重新安装内核模块:
sudo dkms install -m nvidia -v 535.230.02
3.然而第二步报错
Error! Could not locate dkms.conf file.
File: /usr/src/nvidia-535.230.02/dkms.conf does not exist.
我看了下确实没有这个路径
4.通过拷打AI,他让我先卸载N卡驱动:
sudo apt purge nvidia-*
再安装N卡驱动:
sudo apt install nvidia-driver-535
5.此时再执行sudo dkms install -m nvidia -v 535.247.01,显示已安装成功。本以为大功告成,结果执行nvidia-smi还是没有!
6.再次拷打AI,让我先用dkms status查看了加载状态,看到确实驱动已经加载了。然后分别执行以下两句,应该是加载模块重启驱动服务:
sudo systemctl restart nvidia-persistenced
sudo modprobe nvidia
7.然而重启失败。再次拷打AI,让我先查看此时n卡相关的进程,然后kill掉:
ps aux | grep -i nvidia
sudo pkill -f nvidia
8.此时再次执行6中的这句重启服务:
sudo systemctl restart nvidia-persistenced
9.诶活了
更多推荐




所有评论(0)