两张nvdia 4090本地大模型分析
- 内容介绍
- 文章标签
- 相关推荐
RTX 4090 本身是 PCIe 4.0 x16 设备,也就是显卡接口规格支持:
PCIe 4.0 x16
对应理论单向带宽约:
PCIe 4.0 x16 ≈ 31.5 GB/s
PCIe 4.0 x8 ≈ 15.75 GB/s
| 项目 | 带宽 | |
|---|---|---|
| PCIe 4.0 x16 | 约 31.5 GB/s 单向,约 63 GB/s 双向合计 | CPU/主板 ↔ GPU 之间的数据通道 |
| PCIe 4.0 x8 | 约 15.75 GB/s 单向,约 31.5 GB/s 双向合计 | 双 4090 在消费级平台上常见状态 |
| RTX 4090 显存带宽 | 约 1008 GB/s | 4090 GPU 核心 ↔ 自己的 24GB GDDR6X 显存 |
| M4 Max 32 核 GPU版 | 410 GB/s | Apple 统一内存带宽 |
| M4 Max 40 核 GPU版 | 546 GB/s | Apple 统一内存带宽 |
pcie性能太差,通过pcie连接两张4090部署一张卡里装不下的模型,性能会很差。不如两张卡部署两个互补模型独立工作,或者多卡为了多人高并发。
网友解答:--【壹】--:
我体验的是qwen3.6 27B awq 4bit 在双卡4090上单人使用能有45 tokens/s
--【贰】--:
你在说什么,发的啥,你试过吗
什么后端,什么模型,什么场景
--【叁】--:
把两张4090卖了,能买至少4张3090 24g
也就是24*4 96g显存
并且有nvlink
--【肆】--:
这要看你的workload,之前有人测过张量并行拆模型高并发有没有nvlink不会差很多
--【伍】--:
只能 24x2 + 24x2
而且 3090 nvlink 没快多少
RTX 4090 本身是 PCIe 4.0 x16 设备,也就是显卡接口规格支持:
PCIe 4.0 x16
对应理论单向带宽约:
PCIe 4.0 x16 ≈ 31.5 GB/s
PCIe 4.0 x8 ≈ 15.75 GB/s
| 项目 | 带宽 | |
|---|---|---|
| PCIe 4.0 x16 | 约 31.5 GB/s 单向,约 63 GB/s 双向合计 | CPU/主板 ↔ GPU 之间的数据通道 |
| PCIe 4.0 x8 | 约 15.75 GB/s 单向,约 31.5 GB/s 双向合计 | 双 4090 在消费级平台上常见状态 |
| RTX 4090 显存带宽 | 约 1008 GB/s | 4090 GPU 核心 ↔ 自己的 24GB GDDR6X 显存 |
| M4 Max 32 核 GPU版 | 410 GB/s | Apple 统一内存带宽 |
| M4 Max 40 核 GPU版 | 546 GB/s | Apple 统一内存带宽 |
pcie性能太差,通过pcie连接两张4090部署一张卡里装不下的模型,性能会很差。不如两张卡部署两个互补模型独立工作,或者多卡为了多人高并发。
网友解答:--【壹】--:
我体验的是qwen3.6 27B awq 4bit 在双卡4090上单人使用能有45 tokens/s
--【贰】--:
你在说什么,发的啥,你试过吗
什么后端,什么模型,什么场景
--【叁】--:
把两张4090卖了,能买至少4张3090 24g
也就是24*4 96g显存
并且有nvlink
--【肆】--:
这要看你的workload,之前有人测过张量并行拆模型高并发有没有nvlink不会差很多
--【伍】--:
只能 24x2 + 24x2
而且 3090 nvlink 没快多少

