• 首先检查一下是否关闭了Secure Boot ,然后添加nvidia ppa查看可以用的版本之类的常规操作

  • 重点是一定要安装open的版本

 sudo apt install nvidia-driver-580-open
  • nvidia-smi 检测安装成功

在这里插入图片描述

没有open的报错信息

跑:

dmesg | grep -i nvidia

看看内核日志里有没有关于 GPU 初始化的报错。

nvidia: loading out-of-tree module taints kernel.
nvidia: module license 'NVIDIA' taints kernel.
nvidia: module verification failed: signature and/or required key missing - tainting kernel

👉 含义:加载了 NVIDIA 闭源模块,它不是内核自带的,所以 “taints kernel”(污染标记,不是报错,只是提示内核不是 100% 自由代码)。
签名验证失败这行是因为 Secure Boot 没有 key,但你已经关掉了 Secure Boot,所以不会影响使用。


NVRM: The NVIDIA GPU 0000:01:00.0 (PCI ID: 10de:2d04)
NVRM: installed in this system requires use of the NVIDIA open kernel modules.

👉 重点:你的显卡 PCI ID 10de:2d04(RTX 50 系列 / Blackwell 架构),NVIDIA 驱动提示:
“这张 GPU 必须使用 NVIDIA 的 open kernel modules (开源内核模块),而不是闭源的 proprietary 模块。”

也就是说:

  • 老的闭源 NVIDIA 驱动 不支持 这代 GPU。
  • 必须安装 NVIDIA Open Kernel Module 驱动(open variant),也就是 nvidia-driver-580-open

[drm:nv_drm_dev_load [nvidia_drm]] *ERROR* [nvidia-drm] ... Failed to allocate NvKmsKapiDevice

👉 因为你现在装的是闭源模块,加载失败,所以 nvidia-drm 无法初始化显卡。导致 nvidia-smi 没输出。

  • lsmod | grep nouveau 为空 → 开源驱动 nouveau 没有加载
  • lsmod | grep nvidia 有结果 → NVIDIA 专有驱动模块 已经加载进内核

如果很不幸安装闭源驱动,请卸载

  1. 卸掉闭源驱动:

    sudo apt purge nvidia-driver-580
    
  2. 安装 open 版本

    sudo apt install nvidia-driver-580-open
    
  3. 重启:

    sudo reboot
    
Logo

分享最新的 NVIDIA AI Software 资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐