Author: Gary
Date: 2025.7.28
参考资料:
https://medium.com/@yt.chen/nvidia-smi-%E9%80%A3%E4%B8%8D%E5%88%B0-driver-%E7%9A%84%E8%87%AA%E6%95%91%E6%96%B9%E6%B3%95-69cbed16171d

故障:执行nvidia-smi时提示:
NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

排查过程:
1.重启后先执行了 lspci | grep nvidia看到N卡硬件还在,说明N卡是正常启动了的只是驱动故障
2.然后根据参考资料的指示,先通过ls /usr/src | grep nvidia查看了当前n卡驱动的版本,然后通过sudo apt-get install dkms安装了dkms(不知道是啥,好像是管理内核模块用的),然后使用以下指令重新安装内核模块:
sudo dkms install -m nvidia -v 535.230.02
3.然而第二步报错
Error! Could not locate dkms.conf file.
File: /usr/src/nvidia-535.230.02/dkms.conf does not exist.
我看了下确实没有这个路径
4.通过拷打AI,他让我先卸载N卡驱动:
sudo apt purge nvidia-*
再安装N卡驱动:
sudo apt install nvidia-driver-535
5.此时再执行sudo dkms install -m nvidia -v 535.247.01,显示已安装成功。本以为大功告成,结果执行nvidia-smi还是没有!
6.再次拷打AI,让我先用dkms status查看了加载状态,看到确实驱动已经加载了。然后分别执行以下两句,应该是加载模块重启驱动服务:
sudo systemctl restart nvidia-persistenced
sudo modprobe nvidia
7.然而重启失败。再次拷打AI,让我先查看此时n卡相关的进程,然后kill掉:
ps aux | grep -i nvidia
sudo pkill -f nvidia
8.此时再次执行6中的这句重启服务:
sudo systemctl restart nvidia-persistenced
9.诶活了

Logo

分享最新的 NVIDIA AI Software 资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐