社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

深度学习设置多GPU教程 | 快速设置CUDA和PyTorch

小白玩转Python • 3 月前 • 110 次点击  

点击下方卡片,关注“小白玩转Python”公众号


随着深度学习模型(特别是大型语言模型)不断变大,开发和本地使用它们对更多GPU内存(VRAM)的需求也在不断增加。构建或获取多GPU机器只是挑战的第一部分。大多数库和应用程序默认只使用一个GPU。因此,机器还需要有适当的驱动程序以及可以利用多GPU设置的库。
这篇文章提供了如何在多GPU(Nvidia)Linux机器上设置重要库(如CUDA Toolkit和PyTorch)的指南。这将希望节省你在实验上的时间,并让你开始你的开发。最后,提供了可以利用多GPU设置进行深度学习的流行开源库的链接。
目标:设置一个带有必要库(如CUDA Toolkit和PyTorch)的多GPU Linux系统,以开始深度学习。(相同的步骤也适用于单GPU机器
我们将安装:
1)CUDA Toolkit
2)PyTorch
3)Miniconda
以开始使用exllamaV2和torchtune等框架进行深度学习。
开始
使用终端中的nvidia-smi命令检查机器中安装的GPU数量。它应该打印出所有已安装GPU的列表。如果有任何差异或命令不起作用,请首先为你的Linux版本安装Nvidia驱动程序。确保nvidia-smi命令打印出你的机器中安装的所有GPU的列表,如上图所示。
步骤1 安装CUDA Toolkit
检查usr/local/cuda-xx中是否有现有的CUDA文件夹。这意味着已经安装了一个版本的CUDA。如果你已经安装了所需的CUDA工具包(在终端中检查nvcc命令),请跳到步骤2。
检查你所需的PyTorch库所需的CUDA版本:
基础安装程序的终端命令将根据你选择的选项出现。复制并粘贴它们在你的Linux终端中运行以安装CUDA工具包。例如,对于x86_64 Ubuntu 22,通过在下载文件夹中打开终端运行以下命令:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pinsudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.debsudo dpkg -i cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.debsudo cp /var/cuda-repo-ubuntu2204-12-1-local/cuda-*-keyring.gpg /usr/share/keyrings/sudo apt-get updatesudo apt-get -y install cuda
在安装CUDA工具包时,安装程序可能会提示内核更新。如果在终端中出现任何弹出窗口以更新内核,请按esc键取消。在此阶段不要更新内核!— 它可能会破坏你的Nvidia驱动程序。安装完成后重新启动Linux机器。nvcc命令仍然不起作用。你需要将CUDA安装添加到PATH。使用nano编辑器打开.bashrc文件。
nano /home/$USER


    
/.bashrc
滚动到.bashrc文件的底部并添加这两行:
export PATH="/usr/local/cuda-12.1/bin:$PATH" export LD_LIBRARY_PATH="/usr/local/cuda-12.1/lib64:$LD_LIBRARY_PATH"
注意你可以将cuda-12.1更改为你安装的CUDA版本,如果将来需要,cuda-xx,'xx'是你的CUDA版本。
保存更改并关闭nano编辑器:
 To save changes - On you keyboard, press the following: 
ctrl + o --> save enter or return key --> accept changes ctrl + x --> close editor
关闭并重新打开终端。现在nvcc--version命令应该在终端中打印出已安装的CUDA版本。
步骤2 安装Miniconda
在我们安装PyTorch之前,最好先安装Miniconda,然后在Conda环境中安装PyTorch。为每个项目创建一个新的Conda环境也很有用。在下载文件夹中打开终端并运行以下命令:
mkdir -p ~/miniconda3wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.shbash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3rm -rf ~/miniconda3/miniconda.sh

# initiate conda~/miniconda3/bin/conda init bash~/miniconda3/bin/conda init zsh
关闭并重新打开终端。现在conda命令应该可以工作。
步骤3 安装PyTorch
(可选)— 为你的项目创建一个新的conda环境。
conda create -n name> python=3.11
# activate the environmentconda activate name>
为你的CUDA版本安装PyTorch库。以下是我们安装的cuda-12.1的命令:
pip3 install torch torchvision torchaudio
PyTorch安装后,在终端中检查PyTorch可见的GPU数量。
python
>> import torch>> print(torch.cuda.device_count())8
这应该打印出系统中安装的GPU数量(我的情况下是8),也应该与nvidia-smi命令中列出的GPU数量相匹配。

·  END  ·

🌟 想要变身计算机视觉小能手?快来「小白玩转Python」公众号!
回复Python视觉实战项目,解锁31个超有趣的视觉项目大礼包!🎁

本文仅供学习交流使用,如有侵权请联系作者删除

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/175425
 
110 次点击