Ubuntu在docker环境conda+pip环境使用nvidia cuda深度学习训练
Ubuntu上使用nvidia cuda进行深度学习训练推理
系统:
ubuntu 18.04.5 LTS
ubuntu 20.04 LTS
方式一、使用conda+pip环境
安装步骤:
1、安装nvidia gpu driver:打开Ubuntu系统的 Software&Updates – Additional Drivers,搜索安装nvidia的proprietary驱动。(或者,也可以去nvidia官方网站下载 NVIDIA-Linux-x86_64-xxx.run 驱动文件手动安装)
2、安装Miniconda(或Anaconda),使用conda命令create并activate工作区,在工作区里安装cuda toolkit 和 cudnn。注意 cuda版本,从这里或这里查询:
conda create ... python=3.6 conda activate ...
# 需要注意,安装与tensorflow编译对应的cuda版本。这里假设将要安装tensorflow 1.15版本,对应使用cuda 10.0
conda install -c anaconda cudnn cudatoolkit=10.0
3、使用pip安装tensorflow-gpu
pip install tensorflow-gpu==1.15.4
4、测试
$ python # 进入python解释器 >>> import tensorflow as tf >>> tf.test.is_gpu_available() >>> tf.test.gpu_device_name()
OK.
方式二、使用docker环境
1、安装nvidia gpu driver:同上面方法,安装nvidia显卡驱动。如果前面已经安装过,可跳过。
2、安装docker
3、安装nvidia-docker2
【更新:nvidia-docker2已经被nvidia-container-toolkit取代,见https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/overview.html】
见官方: https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html
#配置nvidia的源
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
#安装nvidia-docker2
sudo apt-get update sudo apt-get install -y nvidia-docker2
# 重启docker服务
sudo systemctl restart docker
4、使用--gpus选项创建和运行docker container
sudo docker container run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi
# 或者,使用tensorflow的docker测试:
sudo docker container run --rm --gpus all -t -i -u 0 tensorflow/tensorflow:2.3.1-gpu
#在docker里面:
$ python # 进入python解释器 >>> import tensorflow as tf >>> tf.test.is_gpu_available() >>> tf.test.gpu_device_name()
5、可选。nvidia:cuda和machine-learning的apt mirror
腾讯:https://mirrors.cloud.tencent.com/的nvidia-cuda和nvidia-machine-learning
阿里:https://mirrors.aliyun.com/nvidia-cuda/
OK.
备忘:使用docker环境,安装nvidia提供的tensorflow镜像
公版tensorflow有的配置和特性没有打开(例如tensorflow1的tf-trt默认disabled)。
nvidia提供了一个docker container版本的tensorflow,里面配置了cuda环境、tensorrt等,建议使用nvidia提供的镜像。
https://docs.nvidia.com/deeplearning/frameworks/tensorflow-release-notes/index.html
https://ngc.nvidia.com/catalog/containers/nvidia:tensorflow
1~3. 同上述方式二的前三个步骤,安装docker和nvidia-docker2
不使用公版tensorflow,而是安装nvidia提供的tensorflow版本,其docker镜像在 https://ngc.nvidia.com/catalog/containers/nvidia:tensorflow
同上述方式二的第四步骤,使用--gpus选项创建和运行
conda install -c anaconda cudnn cudatoolkit=10.00
点击链接加入群聊三群:751529538
点击链接加入群聊二群:376877156
点击链接加入群聊【路由器交流群:622891808已满】
本站附件分享,如果附件失效,可以去找找看
饿了么红包