硬件杂谈
CPU
指令集:x86、arm
https://www.jianshu.com/p/2753c45af9bf
【CPU】关于x86、x86_64/x64、amd64和arm64/aarch64

GPU
2023.06
4070:低功耗缩水(10%)3080 200/320W 599$ 4799
4070Ti:低功耗版3090Ti 285/450W 799$ 6499
安装
https://www.bilibili.com/video/BV1BG4y137mG/
测试
SN码
SN码需三码合一,即卡上SN,保修卡SN,包装盒SN一定要一致
测试软件
GPU-Z
AIDA64
Furmark
鲁大师
3D Mark
Fraps
Afterburner
LInux:
Glxgears
Unigine 3D
驱动
win10 下使用GPU-Z可检测出intel、NVIDIA双显卡
Ubuntu22下使用lspci命令只能检测出单显卡
(独显供电时只检测出nvidia、否则只检测出intel核显)
nvidia官网
|
|
NV显卡驱动升级
步骤 | 内容 |
---|---|
1 | 彻底卸载旧525驱动(干净,否则容易出问题) |
2 | 添加官方新PPA源(有550系列最新稳定版) |
3 | 安装550驱动 |
4 | 重启,确认生效 |
详细步骤
1. 检查现有驱动
先看看系统现在在用什么:
|
|
确认是 525.xx,比如输出类似:
Driver Version: 525.125.06
如果确定了,继续。
2. 卸载旧驱动(推荐!)
一定要先卸载干净,避免冲突。
|
|
这三步做完,系统上的 NVIDIA 驱动基本清理干净了。
3. 添加官方新的 PPA 源
Ubuntu官方的显卡驱动仓库PPA里有 550稳定版。
添加它:
|
|
然后可以查一下有哪些版本:
|
|
你会看到比如:
nvidia-driver-550/jammy 550.xx stable
就是你要的。
4. 安装新驱动 550
直接装:
|
|
安装过程中,会自动帮你处理依赖,比如nvidia-dkms-550
(内核模块)、libnvidia-gl
(图形库)等。
5. 重启
|
|
6. 验证驱动版本
重启后,查看驱动是否是 550系列:
|
|
正常的话你会看到:
Driver Version: 550.78
CUDA Version: 12.4
成功!
⚡ 补充小知识
- 550系列驱动默认就支持 CUDA 12.4(兼容11.8/12.0/12.2/12.3/12.4程序)
- Ubuntu 22.04官方源里默认只有老版本(比如525、535),所以必须加PPA才能装550。
- 550相较525,性能稍提升,兼容性更好,尤其对于Ada架构显卡(如4070系列)更友好。
❗注意
如果你是远程ssh,建议装前加一句:
|
|
让系统进入命令行模式,防止 GUI 出错黑屏,
驱动装完再:
|
|
恢复桌面环境。
(如果你是本机装且有物理屏幕,看得见就不用管)
总结一句话
Ubuntu 22.04 + 4070,升级到nvidia-driver-550,方法是【卸载525 ➔ 添加PPA ➔ 安装550 ➔ 重启 ➔ 检查nvidia-smi】。
NV驱动安装
在安装 NVIDIA 驱动时出现 nvidia-drm
模块已加载的警告,通常是因为系统正在使用 NVIDIA 显卡相关服务(如图形界面、持久化进程等)。以下是分步解决方案:
步骤 1:关闭所有使用 NVIDIA 显卡的进程
1.1 退出图形界面(X Server/Wayland)
临时关闭图形界面(Ubuntu/CentOS等):
1 2 3 4 5
sudo systemctl stop gdm # GNOME 桌面 # 或 sudo systemctl stop lightdm # LightDM 桌面 # 或 sudo systemctl stop sddm # KDE 桌面
切换到纯命令行模式(避免 GUI 占用显卡):
1
sudo systemctl isolate multi-user.target
1.2 终止 NVIDIA 相关进程
查找并杀死可能使用显卡的进程:
1 2
sudo lsof /dev/nvidia* # 查看占用显卡的进程 sudo kill -9 <PID> # 终止相关进程
步骤 2:卸载现有 NVIDIA 内核模块
2.1 手动卸载 NVIDIA 模块
列出已加载的 NVIDIA 模块:
1 2
lsmod | grep nvidia # 示例输出:nvidia_drm, nvidia_modeset, nvidia
按依赖顺序卸载模块:
1 2 3 4
sudo rmmod nvidia_drm # 先卸载依赖模块 sudo rmmod nvidia_modeset sudo rmmod nvidia_uvm # 如果存在(用于 CUDA) sudo rmmod nvidia
2.2 禁用 NVIDIA 持久化模式
停止持久化守护进程:
1
sudo nvidia-persistenced --kill
步骤 3:安装 NVIDIA 驱动
3.1 使用官方驱动安装包
禁用 Nouveau 驱动(开源驱动冲突):
1 2
echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf sudo update-initramfs -u
运行 NVIDIA 安装程序:
1
sudo sh NVIDIA-Linux-*.run
- 如果安装程序仍提示模块已加载,选择 Continue installation 强制安装。
3.2 使用包管理器安装(推荐)
Ubuntu/Debian:
1 2 3 4
sudo apt purge nvidia-* # 彻底卸载旧驱动 sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt update sudo apt install nvidia-driver-535 # 替换为最新版本号
CentOS/RHEL:
1 2 3
sudo yum remove nvidia-* sudo yum install epel-release sudo yum install nvidia-driver
步骤 4:验证安装
重启系统:
1
sudo reboot
检查驱动状态:
1 2
nvidia-smi # 查看 GPU 状态 lsmod | grep nvidia # 确认模块已加载
步骤 5:修复常见问题
5.1 内核不支持模块卸载
检查内核配置:
1
grep CONFIG_MODULE_UNLOAD /boot/config-$(uname -r)
- 输出应为
CONFIG_MODULE_UNLOAD=y
,若为n
需重新编译内核。
- 输出应为
使用 DKMS 管理模块(动态内核模块支持):
1 2
sudo apt install dkms # Ubuntu/Debian sudo dkms install -m nvidia -v <驱动版本>
5.2 驱动与内核版本不兼容
升级内核或选择适配的驱动版本:
1
sudo apt install linux-generic-hwe-20.04 # Ubuntu 20.04 升级内核
总结
问题根源 | 解决方案 |
---|---|
图形界面占用显卡 | 关闭 GUI 或进入多用户模式 |
残留进程占用模块 | 手动卸载模块并终止进程 |
内核配置不支持模块卸载 | 启用 CONFIG_MODULE_UNLOAD 或使用 DKMS |
驱动版本与内核不兼容 | 升级内核或安装匹配的驱动版本 |
完成上述步骤后,NVIDIA 驱动应能正常安装并加载。
CUDA toolkit
常用显卡及性能
深度学习训练常用显卡主要包括 NVIDIA 的 数据中心级(如 A100、H100) 和 消费级(如 RTX 4090、3090) GPU。不同显卡的 性能指标 直接影响深度学习训练的效率,如 显存大小、算力(FP16/FP32/FP64)、带宽 等。
1. 深度学习训练常用显卡对比
类别 | 型号 | 架构 | 显存 (VRAM) | FP16 算力 (TFLOPS) | FP32 算力 (TFLOPS) | FP64 算力 (TFLOPS) | 带宽 (GB/s) | NVLink 支持 | 功耗 (W) |
---|---|---|---|---|---|---|---|---|---|
数据中心级 | H100 PCIe | Hopper | 80GB HBM3 | 98 | 60 | 30 | 2,000 | ✅ (600GB/s) | 350W |
A100 PCIe 80GB | Ampere | 80GB HBM2e | 78 | 19.5 | 9.7 | 2,039 | ✅ (600GB/s) | 300W | |
A100 PCIe 40GB | Ampere | 40GB HBM2e | 78 | 19.5 | 9.7 | 1,555 | ✅ (600GB/s) | 250W | |
V100 32GB | Volta | 32GB HBM2 | 30 | 15.7 | 7.8 | 900 | ✅ (300GB/s) | 250W | |
消费级 | RTX 4090 | Ada Lovelace | 24GB GDDR6X | 82 | 82 | 1.3 | 1,008 | ❌ | 450W |
RTX 4080 | Ada Lovelace | 16GB GDDR6X | 49 | 49 | 0.8 | 720 | ❌ | 320W | |
RTX 3090 | Ampere | 24GB GDDR6X | 35.6 | 35.6 | 0.6 | 936 | ❌ | 350W | |
RTX 3090 Ti | Ampere | 24GB GDDR6X | 40 | 40 | 0.6 | 1,008 | ❌ | 450W | |
RTX 3080 10GB | Ampere | 10GB GDDR6X | 29.8 | 29.8 | 0.5 | 760 | ❌ | 320W | |
RTX 3060 12GB | Ampere | 12GB GDDR6 | 12.7 | 12.7 | 0.2 | 360 | ❌ | 170W |
2. 主要性能指标解析
① 显存(VRAM)
- 深度学习训练依赖显存大小,数据中心级 GPU(A100、H100)通常有 40GB-80GB HBM,适合训练大规模模型(如 GPT-3)。
- 消费级 GPU(如 RTX 4090,24GB)在 中小型任务(如视觉 Transformer、Stable Diffusion)仍然可用。
② 算力(TFLOPS, FP16/FP32/FP64)
- FP16(Tensor Core 计算): 深度学习主要使用 FP16 进行训练,如 A100 (78 TFLOPS) > RTX 4090 (82 TFLOPS)。
- FP32(单精度计算): 对于不支持 FP16 训练的任务,RTX 4090 (82 TFLOPS) 甚至超过 A100 (19.5 TFLOPS)。
- FP64(双精度计算): 科学计算(如 CFD、量子模拟)使用 FP64,A100/H100/V100 显著优于消费级 GPU。
③ 显存带宽
- HBM(高带宽内存,如 A100, H100)比 GDDR6X 更快(HBM3 可达 2TB/s)。
- 高带宽 = 更快的数据传输,减少训练瓶颈。
④ NVLink 支持
- 数据中心级 GPU(H100/A100/V100)支持 NVLink(600GB/s),用于多卡并行训练。
- 消费级 GPU 不支持 NVLink(RTX 3090 及以后取消支持)。
3. 适合不同任务的 GPU 选择
任务类型 | 推荐 GPU | 理由 |
---|---|---|
大规模 NLP / GPT-4 / Transformer | ✅ H100 / A100 80GB | 大显存、高带宽、高 FP16 计算能力 |
大规模计算机视觉 / 3D 生成 | ✅ A100 80GB / RTX 4090 | 高显存+高算力 |
中小规模深度学习训练(如 Stable Diffusion) | ✅ RTX 4090 / RTX 3090 | 24GB VRAM 足够,性价比高 |
小型神经网络推理(如 YOLO) | ✅ RTX 3060 / 3080 | 低成本、适合实验 |
科学计算 / 物理模拟(FP64 需求) | ✅ H100 / A100 / V100 | FP64 计算能力强 |
低预算 AI 研究 / 开发 | ✅ RTX 4090 / RTX 3090 | 高性价比,支持 FP16 |
4. 深度学习显卡选购建议
- 预算充足 / 训练大模型
- 首选: A100 80GB / H100
- 适用于: GPT-4、LLaMA、Stable Diffusion 高分辨率生成、NLP 大模型训练
- 优势: 大显存、NVLink、高 FP16 算力、HBM 高带宽
- 高性价比训练
- 首选: RTX 4090(24GB)
- 适用于: 计算机视觉、GAN、Transformer、强化学习
- 优势: 24GB 显存、FP16 算力高(82 TFLOPS)、较便宜
- 低预算开发
- 首选: RTX 3090 / 3080 / 3060 12GB
- 适用于: 初学者、实验室、小模型训练
- 优势: 价格低,VRAM 足够一般深度学习任务
5. 结论
- 专业深度学习训练(LLaMA、GPT、Stable Diffusion):A100 80GB / H100
- 消费级最高性能:RTX 4090(24GB)
- 高性价比训练:RTX 3090 / 3090 Ti
- 小规模实验 / 开发:RTX 3060(12GB)
如果你计划 训练大模型(如 Transformer、扩散模型),选择 A100/H100 或 RTX 4090 绝对不会错!🚀
FAQ
NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver 错误
可能是BIOS Secure Boot 导致,禁用即可
指令集
arm 精简指令集
x86 复杂指令集
香橙派5pro RK3588S
hdd vs. ssd
在数据存储的安全性方面,HDD(机械硬盘)和SSD(固态硬盘)各有优缺点,具体取决于使用场景和安全需求。以下是关键点的对比和分析:
1. 物理损坏风险
- HDD:
依赖机械部件(如磁头和旋转盘片),抗震性差。意外跌落或震动可能导致磁头划伤盘片,造成数据丢失。 - SSD:
无机械部件,抗震性强,更适合移动设备或恶劣环境(如笔记本电脑、车载设备)。
结论:SSD在物理损坏风险下更安全。
2. 数据恢复可能性
- HDD:
数据删除后通常可部分恢复(除非覆写)。即使盘片损坏,专业机构可能恢复部分数据。 - SSD:
因TRIM指令和磨损均衡技术,删除的数据可能被快速擦除,恢复难度较高。但若主控芯片损坏,数据可能完全无法恢复。
结论:
- 防数据泄露:SSD更安全(数据更难恢复)。
- 防意外丢失:HDD可能更优(恢复可能性更高)。
3. 长期存储可靠性
- HDD:
在稳定环境中,断电后可保存数据数十年。适合长期冷存储(如归档)。 - SSD:
断电后依赖电荷存储数据,电荷可能逐渐流失(通常1-10年)。高温环境加速数据丢失风险。
结论:HDD更适合长期离线存储。
4. 加密与安全性
- SSD:
多数现代SSD支持硬件级加密(如SED,Self-Encrypting Drives),安全性更高,且不影响性能。 - HDD:
加密通常依赖软件(如BitLocker),可能增加性能开销,且安全性依赖用户配置。
结论:SSD在加密技术上更具优势。
5. 环境适应性
- HDD:
对温度、湿度敏感,极端环境易导致机械故障。 - SSD:
无机械部件,适应更宽温度范围,但长期高温可能缩短寿命。
结论:SSD在恶劣环境下表现更稳定。
6. 使用寿命
- HDD:
寿命通常更长(平均5-10年),但机械故障可能突然发生。 - SSD:
写入次数有限(TBW,Terabytes Written),但现代SSD寿命已足够普通用户使用(5-10年)。
结论:两者寿命接近,但SSD的故障可能更“突然”。
综合建议
- 短期使用/频繁移动场景:
选SSD(抗震、加密强)。 - 长期冷存储/归档:
选HDD(断电后数据更持久)。 - 高安全性需求:
选择支持硬件加密的SSD,并定期备份。 - 通用场景:无论HDD还是SSD,定期备份(如3-2-1原则)才是数据安全的核心。
关键总结
- SSD优势:抗震、加密强、防数据泄露。
- HDD优势:长期离线存储、数据恢复可能性高。
- 共同原则:没有绝对安全的存储介质,多重备份+加密才是终极解决方案。