从零开始部署深度学习环境

搭建深度学习环境

9.9租了一天的云服务,结果发现里面没有搭好深度环境,想放弃使用该云服务器了,但转念一想,正好写一篇如何搭建深度学习环境的blog

1. 安装显卡驱动

  1. 没有安装nvidia驱动就无法使用nvidia-smi

image-20250109211939382

  1. 查询显卡的型号

    1
    lspci | grep -i nvidia

    image-20250109212100648

​ 若出现上图所示,没有明确写明显卡名称,可以将最后的数字(此处为2684)输入到该网址查询

  1. 查询系统架构

    1
    cat /proc/version

    image-20250109212946060

  2. 查询对应的驱动型号,点击查询

    image-20250109213446271

    查询结果如下

    image-20250109213411980

  3. 根据查询结果,这里我选择安装535

    1
    2
    3
    4
    5
    6
    # 拉取包
    wget https://cn.download.nvidia.com/XFree86/Linux-x86_64/535.216.01/NVIDIA-Linux-x86_64-535.216.01.run

    # 安装驱动
    chmod +x NVIDIA-Linux-x86_64-535.216.01.run
    ./NVIDIA-Linux-x86_64-535.216.01.run
  4. 验证结果

    image-20250109220053427

2. 安装Anaconda

为了验证cuda的安装是否是必要的,我决定先安装conda环境,看能否跑模型

官网获取下载链接

1
2
3
4
5
6
7
8
9
# 下载链接
wget https://repo.anaconda.com/archive/Anaconda3-2024.10-1-Linux-x86_64.sh

# 执行安装
./Anaconda3-2024.10-1-Linux-x86_64.sh
# 也可以指定安装路径
bash Anaconda3-2024.10-1-Linux-x86_64.sh -p /opt/anaconda3

source ~/.bashrc

3. 安装pytorch

直接在官网下载兼容版本cuda版本的对应的pytorch

image-20250109222201476

注意:这里的cuda version并不是已安装的cuda版本(显然我的系统还没有安装cuda)这指的是与显卡驱动兼容的最大cuda版本号

1
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

4. 验证结果

不需要安装cuda也能跑模型

image-20250109230727396


从零开始部署深度学习环境
http://xyxblog.com/2025/01/09/从零开始部署深度学习环境/
作者
xyx
发布于
2025年1月9日
许可协议