两张nvdia 4090本地大模型分析

2026-04-29 08:532阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

RTX 4090 本身是 PCIe 4.0 x16 设备,也就是显卡接口规格支持:

PCIe 4.0 x16

对应理论单向带宽约:

PCIe 4.0 x16 ≈ 31.5 GB/s PCIe 4.0 x8 ≈ 15.75 GB/s

项目 带宽
PCIe 4.0 x16 31.5 GB/s 单向,约 63 GB/s 双向合计 CPU/主板 ↔ GPU 之间的数据通道
PCIe 4.0 x8 15.75 GB/s 单向,约 31.5 GB/s 双向合计 双 4090 在消费级平台上常见状态
RTX 4090 显存带宽 1008 GB/s 4090 GPU 核心 ↔ 自己的 24GB GDDR6X 显存
M4 Max 32 核 GPU版 410 GB/s Apple 统一内存带宽
M4 Max 40 核 GPU版 546 GB/s Apple 统一内存带宽

pcie性能太差,通过pcie连接两张4090部署一张卡里装不下的模型,性能会很差。不如两张卡部署两个互补模型独立工作,或者多卡为了多人高并发。

网友解答:
--【壹】--:

我体验的是qwen3.6 27B awq 4bit 在双卡4090上单人使用能有45 tokens/s


--【贰】--:

你在说什么,发的啥,你试过吗
什么后端,什么模型,什么场景


--【叁】--:

把两张4090卖了,能买至少4张3090 24g
也就是24*4 96g显存
并且有nvlink


--【肆】--:

这要看你的workload,之前有人测过张量并行拆模型高并发有没有nvlink不会差很多


--【伍】--:

只能 24x2 + 24x2
而且 3090 nvlink 没快多少

问题描述:

RTX 4090 本身是 PCIe 4.0 x16 设备,也就是显卡接口规格支持:

PCIe 4.0 x16

对应理论单向带宽约:

PCIe 4.0 x16 ≈ 31.5 GB/s PCIe 4.0 x8 ≈ 15.75 GB/s

项目 带宽
PCIe 4.0 x16 31.5 GB/s 单向,约 63 GB/s 双向合计 CPU/主板 ↔ GPU 之间的数据通道
PCIe 4.0 x8 15.75 GB/s 单向,约 31.5 GB/s 双向合计 双 4090 在消费级平台上常见状态
RTX 4090 显存带宽 1008 GB/s 4090 GPU 核心 ↔ 自己的 24GB GDDR6X 显存
M4 Max 32 核 GPU版 410 GB/s Apple 统一内存带宽
M4 Max 40 核 GPU版 546 GB/s Apple 统一内存带宽

pcie性能太差,通过pcie连接两张4090部署一张卡里装不下的模型,性能会很差。不如两张卡部署两个互补模型独立工作,或者多卡为了多人高并发。

网友解答:
--【壹】--:

我体验的是qwen3.6 27B awq 4bit 在双卡4090上单人使用能有45 tokens/s


--【贰】--:

你在说什么,发的啥,你试过吗
什么后端,什么模型,什么场景


--【叁】--:

把两张4090卖了,能买至少4张3090 24g
也就是24*4 96g显存
并且有nvlink


--【肆】--:

这要看你的workload,之前有人测过张量并行拆模型高并发有没有nvlink不会差很多


--【伍】--:

只能 24x2 + 24x2
而且 3090 nvlink 没快多少