最近研究TensorFlow,需要开发环境,需要安装一个。我选择了在Ubuntu上使用docker来进行TensorFlow开发环境。因为使用docker是目前最方便搭建开发环境的工具。
安装步骤官方文档说明得比较详细。其实用docker安装环境没有什么可以说的,能会有问题么?如果你使用cpu版本基本不会有问题的。但是如果你使用的是GPU版本。那你还要安装CUDA环境和需要这些支持。我选择了使用CUDA9.1,安装教程在这。在CUDA9.1的下载安装我选择了从网络deb的方式。
不过安装后,运行测试程序(nvidia-smi)或在运行nvidia-docker失败。
Failed to initialize NVML: GPU access blocked by the operating system nvidia-docker failed to initialize nvml: driver/library version mismatch
后来发觉这是驱动的安装问题。我使用的是这里的下载的驱动文件,你可以在www.nvidia.com/drivers按照你显卡型号选择驱动,我发觉最后下载的文件都一样的。下载的文件名称NVIDIA-Linux-x86_64-390.48.run。使用
sudo sh NVIDIA-Linux-x86_64-390.48.run
进行安装,途中会有些报错,不理会继续继续。但是安装出来后,cuda不能正常运行。查询google。最后发现原来官方说这个驱动在ubuntu上需要手动安装。不要直接运行run文件。
#这里先卸载之前安装的驱动。 sudo apt-get remove --purge nvidia-390 nvidia-modprobe nvidia-settings #重新安装驱动,虽然安装过程中有报错,不过后来测试运行暂时没有发现问题。 sudo apt-get install nvidia-390 nvidia-modprobe nvidia-settings
经过这一卸载,再安装就成功了。幸福来得有点突然。哈哈哈。
还有一个地方需要注意的是,nvidia-docker的安装需要指定的docker版本,而且这个版本必须是精确的版本。不能高于或在一个小升级的版本。而且这个版本不是稳定版本来的。我这次需要的是Docker version 18.03.1-ce, build 9ee9f40版本。不过你的版本不对他是不会继续给你安装的。
下边给几个用于检查安装好的环境
cat /proc/driver/nvidia/version NVRM version: NVIDIA UNIX x86_64 Kernel Module 390.30 Wed Jan 31 22:08:49 PST 2018 GCC version: gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.9) ls -l /dev/nvidia* crw-rw-rw- 1 root root 195, 254 May 3 10:00 /dev/nvidia-modeset crw-rw-rw- 1 root root 243, 0 May 3 09:03 /dev/nvidia-uvm crw-rw-rw- 1 root root 243, 1 May 3 10:00 /dev/nvidia-uvm-tools crw-rw-rw- 1 root root 195, 0 May 3 10:00 /dev/nvidia0 crw-rw-rw- 1 root root 195, 255 May 3 09:03 /dev/nvidiactl (我安装驱动失败的时候这里只有两个设备,/dev/nvidia-uvm和/dev/nvidiactl) lspci | grep -i nvidia 01:00.0 VGA compatible controller: NVIDIA Corporation GK208 [GeForce GT 730] (rev a1) 01:00.1 Audio device: NVIDIA Corporation GK208 HDMI/DP Audio Controller (rev a1) cat /proc/driver/nvidia/gpus/0000:01:00.0/information Model: GeForce GT 730 IRQ: 34 GPU UUID: GPU-????????-????-????-????-???????????? Video BIOS: ??.??.??.??.?? Bus Type: PCIe DMA Size: 40 bits DMA Mask: 0xffffffffff Bus Location: 0000:01:00.0 Device Minor: 0
大家别笑我的GPU太差。真实使用的时候需要租用云服务器的GPU。