两张nvdia 4090本地大模型分析

2026-04-29 08:532阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

RTX 4090 本身是 PCIe 4.0 x16 设备，也就是显卡接口规格支持：

PCIe 4.0 x16

对应理论单向带宽约：

PCIe 4.0 x16 ≈ 31.5 GB/s PCIe 4.0 x8 ≈ 15.75 GB/s

项目	带宽
PCIe 4.0 x16	约 31.5 GB/s 单向，约 63 GB/s 双向合计	CPU/主板 ↔ GPU 之间的数据通道
PCIe 4.0 x8	约 15.75 GB/s 单向，约 31.5 GB/s 双向合计	双 4090 在消费级平台上常见状态
RTX 4090 显存带宽	约 1008 GB/s	4090 GPU 核心 ↔ 自己的 24GB GDDR6X 显存
M4 Max 32 核 GPU版	410 GB/s	Apple 统一内存带宽
M4 Max 40 核 GPU版	546 GB/s	Apple 统一内存带宽

pcie性能太差，通过pcie连接两张4090部署一张卡里装不下的模型，性能会很差。不如两张卡部署两个互补模型独立工作，或者多卡为了多人高并发。

网友解答：

--【壹】--：

我体验的是qwen3.6 27B awq 4bit 在双卡4090上单人使用能有45 tokens/s

--【贰】--：

你在说什么，发的啥，你试过吗
什么后端，什么模型，什么场景

--【叁】--：

把两张4090卖了，能买至少4张3090 24g
也就是24*4 96g显存
并且有nvlink

--【肆】--：

这要看你的workload，之前有人测过张量并行拆模型高并发有没有nvlink不会差很多

--【伍】--：

只能 24x2 + 24x2
而且 3090 nvlink 没快多少

标签：ChatGpt OpenAI 人工智能软件开发 NVIDIA

问题描述：

RTX 4090 本身是 PCIe 4.0 x16 设备，也就是显卡接口规格支持：

PCIe 4.0 x16

对应理论单向带宽约：

PCIe 4.0 x16 ≈ 31.5 GB/s PCIe 4.0 x8 ≈ 15.75 GB/s

项目	带宽
PCIe 4.0 x16	约 31.5 GB/s 单向，约 63 GB/s 双向合计	CPU/主板 ↔ GPU 之间的数据通道
PCIe 4.0 x8	约 15.75 GB/s 单向，约 31.5 GB/s 双向合计	双 4090 在消费级平台上常见状态
RTX 4090 显存带宽	约 1008 GB/s	4090 GPU 核心 ↔ 自己的 24GB GDDR6X 显存
M4 Max 32 核 GPU版	410 GB/s	Apple 统一内存带宽
M4 Max 40 核 GPU版	546 GB/s	Apple 统一内存带宽

pcie性能太差，通过pcie连接两张4090部署一张卡里装不下的模型，性能会很差。不如两张卡部署两个互补模型独立工作，或者多卡为了多人高并发。

网友解答：

--【壹】--：

我体验的是qwen3.6 27B awq 4bit 在双卡4090上单人使用能有45 tokens/s

--【贰】--：

你在说什么，发的啥，你试过吗
什么后端，什么模型，什么场景

--【叁】--：

把两张4090卖了，能买至少4张3090 24g
也就是24*4 96g显存
并且有nvlink

--【肆】--：

这要看你的workload，之前有人测过张量并行拆模型高并发有没有nvlink不会差很多

--【伍】--：

只能 24x2 + 24x2
而且 3090 nvlink 没快多少

标签：ChatGpt OpenAI 人工智能软件开发 NVIDIA