解决国产化系统适配AI容器化的改造nvidia系统兼容问题(rocky9.3系统)
报错信息:背景:我在部署docker应用 dockers run --gpu参数提示报错的。
报错信息:
docker: Error response from daemon: failed to create task for container: failed to create shim task: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running hook #0: error running hook: exit status 1, stdout: , stderr: Auto-detected mode as ‘legacy’ nvidia-container-cli: container error: failed to get device cgroup mount path: no cgroup filesystem mounted for the devices subsytem in mountinfo file: unknown.
背景:我在部署docker应用 dockers run --gpu参数提示报错的
如下图:
解决方式
搜了很多解决方法,最终确认是系统cgroup的问题,我服务本身需要的cgroup v1的系统配置,当前配置是v2
操作:
### rocky linux9.3系统解决方式: 和ubuntu类的APT系统还不太一样
##查看当前cgroups版本
cat /proc/filesystems | grep cgroup
##显示v2版本,则对应修改
cd /boot/loader/entries/
uname -r
##进入和系统内核版本一样的conf文件中
##systemd.unified_cgroup_hierarchy=0,将该参数加入到options 行的后面 参考下图
生成GRUB配置文件
grub2-mkconfig -o /boot/grub2/grub.cfg
不同系统方法不太一样
Rocky Linux 使用 grub2,因此没有 update-grub 命令
配置生成后需要重启机器
reboot
验证
mount | grep cgroup
未修改之前:
已解决
更多推荐
所有评论(0)