ubuntu 重启后找不到 gpu driver

使用 nvidia-smi 提示(此时 X-window 也无法正常启动,只能显示输密码界面):

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver.

Make sure that the latest NVIDIA driver is installed and running.

用以下命令自动重装驱动:

$ sudo ubuntu-drivers autoinstall

此时可正常使用 nvidia-smi,启动 gpu docker 时又报错。

用以下命令查看驱动情况:

$ nvidia-container-cli -k -d /dev/tty info

也报错。分析发现系统自动安装的 driver 是 430 版本(之前好像安装过 440 或 450,重启后不能正常使用)。

因此,用以下命令安装 430 配套的 libcuda1:

$ sudo apt-get install libcuda1-430

安装后 docker 也可正常使用了。

问题与解决

  • docker 里找不到 nvidia-smi

    在启动 docker 时加入:--gpus all