Contents

硬件杂谈

DIY装机

CUDA

CPU

指令集:x86、arm

请问ARM64跟x64有什么区别?

https://www.jianshu.com/p/2753c45af9bf

【CPU】关于x86、x86_64/x64、amd64和arm64/aarch64

GPU

NVIDIA桌面显卡规格表

2023.06

4070:低功耗缩水(10%)3080 200/320W 599$ 4799

4070Ti:低功耗版3090Ti 285/450W 799$ 6499

安装

https://www.bilibili.com/video/BV1BG4y137mG/

测试

SN码

SN码需三码合一,即卡上SN,保修卡SN,包装盒SN一定要一致

官方支持 | ASUS 中国

测试软件

不服就来比一比,显卡常用测试软件使用教程及下载地址

GPU-Z

AIDA64

Furmark

鲁大师

3D Mark

Fraps

Afterburner

LInux:

Glxgears

Unigine 3D

驱动

win10 下使用GPU-Z可检测出intel、NVIDIA双显卡

Ubuntu22下使用lspci命令只能检测出单显卡

(独显供电时只检测出nvidia、否则只检测出intel核显)

nvidia官网

下载新版 NVIDIA 官方驱动

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
# 禁用nouveau驱动
lsmod | grep nouveau

# 卸载
sudo apt-get remove --purge nvidia*
sudo /usr/bin/nvidia-uninstall # 新版
sudo ./NVIDIA-Linux-x86_64-530.41.03.run --uninstall

# 查看是否安装
nvidia-smi

# 驱动版本检查
nvidia-detector # 寻找合适的nvidia驱动
ubuntu-drivers devices
ls /usr/src | grep nvidia
cat /proc/driver/nvidia/version # 内核检查(**当前安装的NVIDIA显卡驱动的版本信息**)
uname -r
sudo dpkg --list | grep nvidia-*
dpkg -l | grep nvidia # 同上

# dkms修复
sudo apt-get install dkms
sudo dkms install -m nvidia -v 版本号

sudo reboot
secure boot禁用 

# 手动安装
wget https://us.download.nvidia.com/XFree86/Linux-x86_64/530.41.03/NVIDIA-Linux-x86_64-530.41.03.run
chmod +x xxx
sudo ./NVIDIA-Linux-x86_64-530.41.03.run -no-opengl-files

NV显卡驱动升级

步骤内容
1彻底卸载旧525驱动(干净,否则容易出问题)
2添加官方新PPA源(有550系列最新稳定版)
3安装550驱动
4重启,确认生效

详细步骤

1. 检查现有驱动

先看看系统现在在用什么:

1
nvidia-smi

确认是 525.xx,比如输出类似:

Driver Version: 525.125.06

如果确定了,继续。


2. 卸载旧驱动(推荐!)

一定要先卸载干净,避免冲突。

1
2
3
sudo apt-get remove --purge '^nvidia-.*'
sudo apt-get autoremove
sudo apt-get autoclean

这三步做完,系统上的 NVIDIA 驱动基本清理干净了。


3. 添加官方新的 PPA 源

Ubuntu官方的显卡驱动仓库PPA里有 550稳定版

添加它:

1
2
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update

然后可以查一下有哪些版本:

1
apt search nvidia-driver

你会看到比如:

nvidia-driver-550/jammy 550.xx stable

就是你要的。


4. 安装新驱动 550

直接装:

1
sudo apt-get install nvidia-driver-550

安装过程中,会自动帮你处理依赖,比如nvidia-dkms-550(内核模块)、libnvidia-gl(图形库)等。


5. 重启

1
sudo reboot

6. 验证驱动版本

重启后,查看驱动是否是 550系列:

1
nvidia-smi

正常的话你会看到:

Driver Version: 550.78
CUDA Version: 12.4

 成功!


⚡ 补充小知识

  • 550系列驱动默认就支持 CUDA 12.4(兼容11.8/12.0/12.2/12.3/12.4程序)
  • Ubuntu 22.04官方源里默认只有老版本(比如525、535),所以必须加PPA才能装550。
  • 550相较525,性能稍提升,兼容性更好,尤其对于Ada架构显卡(如4070系列)更友好。

❗注意

如果你是远程ssh,建议装前加一句:

1
sudo systemctl set-default multi-user.target

让系统进入命令行模式,防止 GUI 出错黑屏,

驱动装完再:

1
sudo systemctl set-default graphical.target

恢复桌面环境。

(如果你是本机装且有物理屏幕,看得见就不用管)


总结一句话

Ubuntu 22.04 + 4070,升级到nvidia-driver-550,方法是【卸载525 ➔ 添加PPA ➔ 安装550 ➔ 重启 ➔ 检查nvidia-smi】。


NV驱动安装

在安装 NVIDIA 驱动时出现 nvidia-drm 模块已加载的警告,通常是因为系统正在使用 NVIDIA 显卡相关服务(如图形界面、持久化进程等)。以下是分步解决方案:


步骤 1:关闭所有使用 NVIDIA 显卡的进程

1.1 退出图形界面(X Server/Wayland)

  • 临时关闭图形界面(Ubuntu/CentOS等):

    1
    2
    3
    4
    5
    
    sudo systemctl stop gdm         # GNOME 桌面
    # 或
    sudo systemctl stop lightdm     # LightDM 桌面
    # 或
    sudo systemctl stop sddm        # KDE 桌面
    
  • 切换到纯命令行模式(避免 GUI 占用显卡):

    1
    
    sudo systemctl isolate multi-user.target
    

1.2 终止 NVIDIA 相关进程

  • 查找并杀死可能使用显卡的进程:

    1
    2
    
    sudo lsof /dev/nvidia*        # 查看占用显卡的进程
    sudo kill -9 <PID>            # 终止相关进程
    

步骤 2:卸载现有 NVIDIA 内核模块

2.1 手动卸载 NVIDIA 模块

  • 列出已加载的 NVIDIA 模块:

    1
    2
    
    lsmod | grep nvidia
    # 示例输出:nvidia_drm, nvidia_modeset, nvidia
    
  • 按依赖顺序卸载模块:

    1
    2
    3
    4
    
    sudo rmmod nvidia_drm          # 先卸载依赖模块
    sudo rmmod nvidia_modeset
    sudo rmmod nvidia_uvm          # 如果存在(用于 CUDA)
    sudo rmmod nvidia
    

2.2 禁用 NVIDIA 持久化模式

  • 停止持久化守护进程:

    1
    
    sudo nvidia-persistenced --kill
    

步骤 3:安装 NVIDIA 驱动

3.1 使用官方驱动安装包

  • 禁用 Nouveau 驱动(开源驱动冲突):

    1
    2
    
    echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf
    sudo update-initramfs -u
    
  • 运行 NVIDIA 安装程序

    1
    
    sudo sh NVIDIA-Linux-*.run
    
    • 如果安装程序仍提示模块已加载,选择 Continue installation 强制安装。

3.2 使用包管理器安装(推荐)

  • Ubuntu/Debian

    1
    2
    3
    4
    
    sudo apt purge nvidia-*        # 彻底卸载旧驱动
    sudo add-apt-repository ppa:graphics-drivers/ppa
    sudo apt update
    sudo apt install nvidia-driver-535  # 替换为最新版本号
    
  • CentOS/RHEL

    1
    2
    3
    
    sudo yum remove nvidia-*
    sudo yum install epel-release
    sudo yum install nvidia-driver
    

步骤 4:验证安装

  • 重启系统

    1
    
    sudo reboot
    
  • 检查驱动状态

    1
    2
    
    nvidia-smi                # 查看 GPU 状态
    lsmod | grep nvidia       # 确认模块已加载
    

步骤 5:修复常见问题

5.1 内核不支持模块卸载

  • 检查内核配置

    1
    
    grep CONFIG_MODULE_UNLOAD /boot/config-$(uname -r)
    
    • 输出应为 CONFIG_MODULE_UNLOAD=y,若为 n 需重新编译内核。
  • 使用 DKMS 管理模块(动态内核模块支持):

    1
    2
    
    sudo apt install dkms      # Ubuntu/Debian
    sudo dkms install -m nvidia -v <驱动版本>
    

5.2 驱动与内核版本不兼容

  • 升级内核或选择适配的驱动版本:

    1
    
    sudo apt install linux-generic-hwe-20.04  # Ubuntu 20.04 升级内核
    

总结

问题根源解决方案
图形界面占用显卡关闭 GUI 或进入多用户模式
残留进程占用模块手动卸载模块并终止进程
内核配置不支持模块卸载启用 CONFIG_MODULE_UNLOAD 或使用 DKMS
驱动版本与内核不兼容升级内核或安装匹配的驱动版本

完成上述步骤后,NVIDIA 驱动应能正常安装并加载。

CUDA toolkit

CUDA Toolkit Archive

常用显卡及性能

深度学习训练常用显卡主要包括 NVIDIA 的 数据中心级(如 A100、H100)消费级(如 RTX 4090、3090) GPU。不同显卡的 性能指标 直接影响深度学习训练的效率,如 显存大小、算力(FP16/FP32/FP64)、带宽 等。


1. 深度学习训练常用显卡对比

类别型号架构显存 (VRAM)FP16 算力 (TFLOPS)FP32 算力 (TFLOPS)FP64 算力 (TFLOPS)带宽 (GB/s)NVLink 支持功耗 (W)
数据中心级H100 PCIeHopper80GB HBM39860302,000✅ (600GB/s)350W
A100 PCIe 80GBAmpere80GB HBM2e7819.59.72,039✅ (600GB/s)300W
A100 PCIe 40GBAmpere40GB HBM2e7819.59.71,555✅ (600GB/s)250W
V100 32GBVolta32GB HBM23015.77.8900✅ (300GB/s)250W
消费级RTX 4090Ada Lovelace24GB GDDR6X82821.31,008450W
RTX 4080Ada Lovelace16GB GDDR6X49490.8720320W
RTX 3090Ampere24GB GDDR6X35.635.60.6936350W
RTX 3090 TiAmpere24GB GDDR6X40400.61,008450W
RTX 3080 10GBAmpere10GB GDDR6X29.829.80.5760320W
RTX 3060 12GBAmpere12GB GDDR612.712.70.2360170W

2. 主要性能指标解析

① 显存(VRAM)

  • 深度学习训练依赖显存大小,数据中心级 GPU(A100、H100)通常有 40GB-80GB HBM,适合训练大规模模型(如 GPT-3)。
  • 消费级 GPU(如 RTX 4090,24GB)在 中小型任务(如视觉 Transformer、Stable Diffusion)仍然可用。

② 算力(TFLOPS, FP16/FP32/FP64)

  • FP16(Tensor Core 计算): 深度学习主要使用 FP16 进行训练,如 A100 (78 TFLOPS) > RTX 4090 (82 TFLOPS)
  • FP32(单精度计算): 对于不支持 FP16 训练的任务,RTX 4090 (82 TFLOPS) 甚至超过 A100 (19.5 TFLOPS)
  • FP64(双精度计算): 科学计算(如 CFD、量子模拟)使用 FP64,A100/H100/V100 显著优于消费级 GPU

③ 显存带宽

  • HBM(高带宽内存,如 A100, H100)比 GDDR6X 更快(HBM3 可达 2TB/s)。
  • 高带宽 = 更快的数据传输,减少训练瓶颈
  • 数据中心级 GPU(H100/A100/V100)支持 NVLink(600GB/s),用于多卡并行训练
  • 消费级 GPU 不支持 NVLink(RTX 3090 及以后取消支持)

3. 适合不同任务的 GPU 选择

任务类型推荐 GPU理由
大规模 NLP / GPT-4 / TransformerH100 / A100 80GB大显存、高带宽、高 FP16 计算能力
大规模计算机视觉 / 3D 生成A100 80GB / RTX 4090高显存+高算力
中小规模深度学习训练(如 Stable Diffusion)RTX 4090 / RTX 309024GB VRAM 足够,性价比高
小型神经网络推理(如 YOLO)RTX 3060 / 3080低成本、适合实验
科学计算 / 物理模拟(FP64 需求)H100 / A100 / V100FP64 计算能力强
低预算 AI 研究 / 开发RTX 4090 / RTX 3090高性价比,支持 FP16

4. 深度学习显卡选购建议

  1. 预算充足 / 训练大模型
    • 首选: A100 80GB / H100
    • 适用于: GPT-4、LLaMA、Stable Diffusion 高分辨率生成、NLP 大模型训练
    • 优势: 大显存、NVLink、高 FP16 算力、HBM 高带宽
  2. 高性价比训练
    • 首选: RTX 4090(24GB)
    • 适用于: 计算机视觉、GAN、Transformer、强化学习
    • 优势: 24GB 显存、FP16 算力高(82 TFLOPS)、较便宜
  3. 低预算开发
    • 首选: RTX 3090 / 3080 / 3060 12GB
    • 适用于: 初学者、实验室、小模型训练
    • 优势: 价格低,VRAM 足够一般深度学习任务

5. 结论

  • 专业深度学习训练(LLaMA、GPT、Stable Diffusion):A100 80GB / H100
  • 消费级最高性能RTX 4090(24GB)
  • 高性价比训练RTX 3090 / 3090 Ti
  • 小规模实验 / 开发RTX 3060(12GB)

如果你计划 训练大模型(如 Transformer、扩散模型),选择 A100/H100 或 RTX 4090 绝对不会错!🚀

FAQ

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver 错误

可能是BIOS Secure Boot 导致,禁用即可

指令集

arm 精简指令集

x86 复杂指令集

香橙派5pro RK3588S

hdd vs. ssd

在数据存储的安全性方面,HDD(机械硬盘)和SSD(固态硬盘)各有优缺点,具体取决于使用场景和安全需求。以下是关键点的对比和分析:


1. 物理损坏风险

  • HDD
    依赖机械部件(如磁头和旋转盘片),抗震性差。意外跌落或震动可能导致磁头划伤盘片,造成数据丢失。
  • SSD
    无机械部件,抗震性强,更适合移动设备或恶劣环境(如笔记本电脑、车载设备)。

结论:SSD在物理损坏风险下更安全。


2. 数据恢复可能性

  • HDD
    数据删除后通常可部分恢复(除非覆写)。即使盘片损坏,专业机构可能恢复部分数据。
  • SSD
    TRIM指令磨损均衡技术,删除的数据可能被快速擦除,恢复难度较高。但若主控芯片损坏,数据可能完全无法恢复。

结论

  • 防数据泄露:SSD更安全(数据更难恢复)。
  • 防意外丢失:HDD可能更优(恢复可能性更高)。

3. 长期存储可靠性

  • HDD
    在稳定环境中,断电后可保存数据数十年。适合长期冷存储(如归档)。
  • SSD
    断电后依赖电荷存储数据,电荷可能逐渐流失(通常1-10年)。高温环境加速数据丢失风险。

结论:HDD更适合长期离线存储。


4. 加密与安全性

  • SSD
    多数现代SSD支持硬件级加密(如SED,Self-Encrypting Drives),安全性更高,且不影响性能。
  • HDD
    加密通常依赖软件(如BitLocker),可能增加性能开销,且安全性依赖用户配置。

结论:SSD在加密技术上更具优势。


5. 环境适应性

  • HDD
    对温度、湿度敏感,极端环境易导致机械故障。
  • SSD
    无机械部件,适应更宽温度范围,但长期高温可能缩短寿命。

结论:SSD在恶劣环境下表现更稳定。


6. 使用寿命

  • HDD
    寿命通常更长(平均5-10年),但机械故障可能突然发生。
  • SSD
    写入次数有限(TBW,Terabytes Written),但现代SSD寿命已足够普通用户使用(5-10年)。

结论:两者寿命接近,但SSD的故障可能更“突然”。


综合建议

  1. 短期使用/频繁移动场景
    选SSD(抗震、加密强)。
  2. 长期冷存储/归档
    选HDD(断电后数据更持久)。
  3. 高安全性需求
    选择支持硬件加密的SSD,并定期备份。
  4. 通用场景无论HDD还是SSD,定期备份(如3-2-1原则)才是数据安全的核心。

关键总结

  • SSD优势:抗震、加密强、防数据泄露。
  • HDD优势:长期离线存储、数据恢复可能性高。
  • 共同原则:没有绝对安全的存储介质,多重备份+加密才是终极解决方案。