1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
# 禁用nouveau驱动
lsmod | grep nouveau

# 卸载
sudo apt-get remove --purge nvidia*
sudo /usr/bin/nvidia-uninstall # 新版
sudo ./NVIDIA-Linux-x86_64-530.41.03.run --uninstall

# 查看是否安装
nvidia-smi

# 驱动版本检查
nvidia-detector # 寻找合适的nvidia驱动
ubuntu-drivers devices
ls /usr/src | grep nvidia
cat /proc/driver/nvidia/version # 内核检查（**当前安装的NVIDIA显卡驱动的版本信息**）
uname -r
sudo dpkg --list | grep nvidia-*
dpkg -l | grep nvidia # 同上

# dkms修复
sudo apt-get install dkms
sudo dkms install -m nvidia -v 版本号

sudo reboot
secure boot禁用 

# 手动安装
wget https://us.download.nvidia.com/XFree86/Linux-x86_64/530.41.03/NVIDIA-Linux-x86_64-530.41.03.run
chmod +x xxx
sudo ./NVIDIA-Linux-x86_64-530.41.03.run -no-opengl-files

NV显卡驱动升级

步骤	内容
1	彻底卸载旧525驱动（干净，否则容易出问题）
2	添加官方新PPA源（有550系列最新稳定版）
3	安装550驱动
4	重启，确认生效

详细步骤

1. 检查现有驱动

先看看系统现在在用什么：

1
nvidia-smi

确认是 525.xx，比如输出类似：

Driver Version: 525.125.06

如果确定了，继续。

2. 卸载旧驱动（推荐！）

一定要先卸载干净，避免冲突。

1
2
3
sudo apt-get remove --purge '^nvidia-.*'
sudo apt-get autoremove
sudo apt-get autoclean

这三步做完，系统上的 NVIDIA 驱动基本清理干净了。

3. 添加官方新的 PPA 源

Ubuntu官方的显卡驱动仓库PPA里有 550稳定版。

添加它：

1
2
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update

然后可以查一下有哪些版本：

1
apt search nvidia-driver

你会看到比如：

nvidia-driver-550/jammy 550.xx stable

就是你要的。

4. 安装新驱动 550

直接装：

1
sudo apt-get install nvidia-driver-550

安装过程中，会自动帮你处理依赖，比如nvidia-dkms-550（内核模块）、libnvidia-gl（图形库）等。

5. 重启

1
sudo reboot

6. 验证驱动版本

重启后，查看驱动是否是 550系列：

1
nvidia-smi

正常的话你会看到：

Driver Version: 550.78
CUDA Version: 12.4

 成功！

⚡ 补充小知识

550系列驱动默认就支持 CUDA 12.4（兼容11.8/12.0/12.2/12.3/12.4程序）
Ubuntu 22.04官方源里默认只有老版本（比如525、535），所以必须加PPA才能装550。
550相较525，性能稍提升，兼容性更好，尤其对于Ada架构显卡（如4070系列）更友好。

❗注意

如果你是远程ssh，建议装前加一句：

1
sudo systemctl set-default multi-user.target

让系统进入命令行模式，防止 GUI 出错黑屏，

驱动装完再：

1
sudo systemctl set-default graphical.target

恢复桌面环境。

（如果你是本机装且有物理屏幕，看得见就不用管）

总结一句话

Ubuntu 22.04 + 4070，升级到nvidia-driver-550，方法是【卸载525 ➔ 添加PPA ➔ 安装550 ➔ 重启 ➔ 检查nvidia-smi】。

NV驱动安装

在安装 NVIDIA 驱动时出现 nvidia-drm 模块已加载的警告，通常是因为系统正在使用 NVIDIA 显卡相关服务（如图形界面、持久化进程等）。以下是分步解决方案：

步骤 1：关闭所有使用 NVIDIA 显卡的进程

1.1 退出图形界面（X Server/Wayland）

临时关闭图形界面（Ubuntu/CentOS等）：

1
2
3
4
5
sudo systemctl stop gdm         # GNOME 桌面
# 或
sudo systemctl stop lightdm     # LightDM 桌面
# 或
sudo systemctl stop sddm        # KDE 桌面

切换到纯命令行模式（避免 GUI 占用显卡）：
1
sudo systemctl isolate multi-user.target

1.2 终止 NVIDIA 相关进程

查找并杀死可能使用显卡的进程：

1
2
sudo lsof /dev/nvidia*        # 查看占用显卡的进程
sudo kill -9 <PID>            # 终止相关进程

步骤 2：卸载现有 NVIDIA 内核模块

2.1 手动卸载 NVIDIA 模块

列出已加载的 NVIDIA 模块：

1
2
lsmod | grep nvidia
# 示例输出：nvidia_drm, nvidia_modeset, nvidia

按依赖顺序卸载模块：

1
2
3
4
sudo rmmod nvidia_drm          # 先卸载依赖模块
sudo rmmod nvidia_modeset
sudo rmmod nvidia_uvm          # 如果存在（用于 CUDA）
sudo rmmod nvidia

2.2 禁用 NVIDIA 持久化模式

停止持久化守护进程：
1
sudo nvidia-persistenced --kill

步骤 3：安装 NVIDIA 驱动

3.1 使用官方驱动安装包

禁用 Nouveau 驱动（开源驱动冲突）：

1
2
echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf
sudo update-initramfs -u

运行 NVIDIA 安装程序：
1
sudo sh NVIDIA-Linux-*.run
- 如果安装程序仍提示模块已加载，选择 Continue installation 强制安装。

3.2 使用包管理器安装（推荐）

Ubuntu/Debian：

1
2
3
4
sudo apt purge nvidia-*        # 彻底卸载旧驱动
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
sudo apt install nvidia-driver-535  # 替换为最新版本号

CentOS/RHEL：

1
2
3
sudo yum remove nvidia-*
sudo yum install epel-release
sudo yum install nvidia-driver

步骤 4：验证安装

重启系统：
1
sudo reboot

检查驱动状态：

1
2
nvidia-smi                # 查看 GPU 状态
lsmod | grep nvidia       # 确认模块已加载

步骤 5：修复常见问题

5.1 内核不支持模块卸载

检查内核配置：
1
grep CONFIG_MODULE_UNLOAD /boot/config-$(uname -r)
- 输出应为 CONFIG_MODULE_UNLOAD=y，若为 n 需重新编译内核。

使用 DKMS 管理模块（动态内核模块支持）：

1
2
sudo apt install dkms      # Ubuntu/Debian
sudo dkms install -m nvidia -v <驱动版本>

5.2 驱动与内核版本不兼容

升级内核或选择适配的驱动版本：

1
sudo apt install linux-generic-hwe-20.04  # Ubuntu 20.04 升级内核

总结

问题根源	解决方案
图形界面占用显卡	关闭 GUI 或进入多用户模式
残留进程占用模块	手动卸载模块并终止进程
内核配置不支持模块卸载	启用 `CONFIG_MODULE_UNLOAD` 或使用 DKMS
驱动版本与内核不兼容	升级内核或安装匹配的驱动版本

完成上述步骤后，NVIDIA 驱动应能正常安装并加载。

CUDA toolkit

CUDA Toolkit Archive

常用显卡及性能

深度学习训练常用显卡主要包括 NVIDIA 的 数据中心级（如 A100、H100） 和 消费级（如 RTX 4090、3090） GPU。不同显卡的 性能指标 直接影响深度学习训练的效率，如 显存大小、算力（FP16/FP32/FP64）、带宽 等。

1. 深度学习训练常用显卡对比

类别	型号	架构	显存 (VRAM)	FP16 算力 (TFLOPS)	FP32 算力 (TFLOPS)	FP64 算力 (TFLOPS)	带宽 (GB/s)	NVLink 支持	功耗 (W)
数据中心级	H100 PCIe	Hopper	80GB HBM3	98	60	30	2,000	✅ (600GB/s)	350W
	A100 PCIe 80GB	Ampere	80GB HBM2e	78	19.5	9.7	2,039	✅ (600GB/s)	300W
	A100 PCIe 40GB	Ampere	40GB HBM2e	78	19.5	9.7	1,555	✅ (600GB/s)	250W
	V100 32GB	Volta	32GB HBM2	30	15.7	7.8	900	✅ (300GB/s)	250W
消费级	RTX 4090	Ada Lovelace	24GB GDDR6X	82	82	1.3	1,008	❌	450W
	RTX 4080	Ada Lovelace	16GB GDDR6X	49	49	0.8	720	❌	320W
	RTX 3090	Ampere	24GB GDDR6X	35.6	35.6	0.6	936	❌	350W
	RTX 3090 Ti	Ampere	24GB GDDR6X	40	40	0.6	1,008	❌	450W
	RTX 3080 10GB	Ampere	10GB GDDR6X	29.8	29.8	0.5	760	❌	320W
	RTX 3060 12GB	Ampere	12GB GDDR6	12.7	12.7	0.2	360	❌	170W

2. 主要性能指标解析

① 显存（VRAM）

深度学习训练依赖显存大小，数据中心级 GPU（A100、H100）通常有 40GB-80GB HBM，适合训练大规模模型（如 GPT-3）。
消费级 GPU（如 RTX 4090，24GB）在 中小型任务（如视觉 Transformer、Stable Diffusion）仍然可用。

② 算力（TFLOPS, FP16/FP32/FP64）

FP16（Tensor Core 计算）: 深度学习主要使用 FP16 进行训练，如 A100 (78 TFLOPS) > RTX 4090 (82 TFLOPS)。
FP32（单精度计算）: 对于不支持 FP16 训练的任务，RTX 4090 (82 TFLOPS) 甚至超过 A100 (19.5 TFLOPS)。
FP64（双精度计算）: 科学计算（如 CFD、量子模拟）使用 FP64，A100/H100/V100 显著优于消费级 GPU。

③ 显存带宽

HBM（高带宽内存，如 A100, H100）比 GDDR6X 更快（HBM3 可达 2TB/s）。
高带宽 = 更快的数据传输，减少训练瓶颈。

④ NVLink 支持

数据中心级 GPU（H100/A100/V100）支持 NVLink（600GB/s），用于多卡并行训练。
消费级 GPU 不支持 NVLink（RTX 3090 及以后取消支持）。

3. 适合不同任务的 GPU 选择

任务类型	推荐 GPU	理由
大规模 NLP / GPT-4 / Transformer	✅ H100 / A100 80GB	大显存、高带宽、高 FP16 计算能力
大规模计算机视觉 / 3D 生成	✅ A100 80GB / RTX 4090	高显存+高算力
中小规模深度学习训练（如 Stable Diffusion）	✅ RTX 4090 / RTX 3090	24GB VRAM 足够，性价比高
小型神经网络推理（如 YOLO）	✅ RTX 3060 / 3080	低成本、适合实验
科学计算 / 物理模拟（FP64 需求）	✅ H100 / A100 / V100	FP64 计算能力强
低预算 AI 研究 / 开发	✅ RTX 4090 / RTX 3090	高性价比，支持 FP16

4. 深度学习显卡选购建议

预算充足 / 训练大模型
- 首选: A100 80GB / H100
- 适用于: GPT-4、LLaMA、Stable Diffusion 高分辨率生成、NLP 大模型训练
- 优势: 大显存、NVLink、高 FP16 算力、HBM 高带宽
高性价比训练
- 首选: RTX 4090（24GB）
- 适用于: 计算机视觉、GAN、Transformer、强化学习
- 优势: 24GB 显存、FP16 算力高（82 TFLOPS）、较便宜
低预算开发
- 首选: RTX 3090 / 3080 / 3060 12GB
- 适用于: 初学者、实验室、小模型训练
- 优势: 价格低，VRAM 足够一般深度学习任务

5. 结论

专业深度学习训练（LLaMA、GPT、Stable Diffusion）：A100 80GB / H100
消费级最高性能：RTX 4090（24GB）
高性价比训练：RTX 3090 / 3090 Ti
小规模实验 / 开发：RTX 3060（12GB）

如果你计划 训练大模型（如 Transformer、扩散模型），选择 A100/H100 或 RTX 4090 绝对不会错！🚀

FAQ

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver 错误

可能是BIOS Secure Boot 导致，禁用即可

指令集

arm 精简指令集

x86 复杂指令集

香橙派5pro RK3588S

hdd vs. ssd

在数据存储的安全性方面，HDD（机械硬盘）和SSD（固态硬盘）各有优缺点，具体取决于使用场景和安全需求。以下是关键点的对比和分析：

1. 物理损坏风险

HDD：
依赖机械部件（如磁头和旋转盘片），抗震性差。意外跌落或震动可能导致磁头划伤盘片，造成数据丢失。
SSD：
无机械部件，抗震性强，更适合移动设备或恶劣环境（如笔记本电脑、车载设备）。

结论：SSD在物理损坏风险下更安全。

2. 数据恢复可能性

HDD：
数据删除后通常可部分恢复（除非覆写）。即使盘片损坏，专业机构可能恢复部分数据。
SSD：
因TRIM指令和磨损均衡技术，删除的数据可能被快速擦除，恢复难度较高。但若主控芯片损坏，数据可能完全无法恢复。

结论：

防数据泄露：SSD更安全（数据更难恢复）。
防意外丢失：HDD可能更优（恢复可能性更高）。

3. 长期存储可靠性

HDD：
在稳定环境中，断电后可保存数据数十年。适合长期冷存储（如归档）。
SSD：
断电后依赖电荷存储数据，电荷可能逐渐流失（通常1-10年）。高温环境加速数据丢失风险。

结论：HDD更适合长期离线存储。

4. 加密与安全性

SSD：
多数现代SSD支持硬件级加密（如SED，Self-Encrypting Drives），安全性更高，且不影响性能。
HDD：
加密通常依赖软件（如BitLocker），可能增加性能开销，且安全性依赖用户配置。

结论：SSD在加密技术上更具优势。

5. 环境适应性

HDD：
对温度、湿度敏感，极端环境易导致机械故障。
SSD：
无机械部件，适应更宽温度范围，但长期高温可能缩短寿命。

结论：SSD在恶劣环境下表现更稳定。

6. 使用寿命

HDD：
寿命通常更长（平均5-10年），但机械故障可能突然发生。
SSD：
写入次数有限（TBW，Terabytes Written），但现代SSD寿命已足够普通用户使用（5-10年）。

结论：两者寿命接近，但SSD的故障可能更“突然”。

综合建议

短期使用/频繁移动场景：
选SSD（抗震、加密强）。
长期冷存储/归档：
选HDD（断电后数据更持久）。
高安全性需求：
选择支持硬件加密的SSD，并定期备份。
通用场景：无论HDD还是SSD，定期备份（如3-2-1原则）才是数据安全的核心。

关键总结

SSD优势：抗震、加密强、防数据泄露。
HDD优势：长期离线存储、数据恢复可能性高。
共同原则：没有绝对安全的存储介质，多重备份+加密才是终极解决方案。