NVIDIA DGX Spark体积小巧,其AI性能是否超乎想象?
- 内容介绍
- 相关推荐
本文共计626个文字,预计阅读时间需要3分钟。
DX+Spark真正将小体积+AI这件事做到了实——150x150x50.5mm的机体,1.2kg重量,放在办公桌角几乎不占地,但背后是1 PFLOP(FP4稀疏)算力、128GB统一内存、20核Arm CPU+Blackwell GPU的完整SoC架构。它不是简化版服务器,也不是游戏显卡改的玩具,而是专为本地大模型开发重新定义的桌面AI节点。
真正能跑200B模型的桌面设备
很多标称“支持大模型”的设备,实际运行时频繁OOM或靠量化硬扛。DGX Spark靠三样东西稳住局面:
- 128GB LPDDR5x统一内存:CPU和GPU共享同一地址空间,避免数据反复拷贝;FP4格式下可原生加载200B参数模型(如DeepSeek-V2、Qwen2.5-200B),推理时无需降精度牺牲效果
- NVLink-C2C 600GB/s互联:比PCIe 5.0快5倍,让CPU预处理和GPU计算真正并行,Prefill阶段吞吐明显高于同级PCIe直连方案
- Blackwell GPU的第5代Tensor Core:对vLLM、SGLang等主流推理框架原生优化,实测Ollama+DGX Spark组合下,200B模型Decode速度可达1800 tokens/s(单机)
不只是单机,更是可扩展的AI节点
它没把自己锁死在“一台电脑”的定位里。
本文共计626个文字,预计阅读时间需要3分钟。
DX+Spark真正将小体积+AI这件事做到了实——150x150x50.5mm的机体,1.2kg重量,放在办公桌角几乎不占地,但背后是1 PFLOP(FP4稀疏)算力、128GB统一内存、20核Arm CPU+Blackwell GPU的完整SoC架构。它不是简化版服务器,也不是游戏显卡改的玩具,而是专为本地大模型开发重新定义的桌面AI节点。
真正能跑200B模型的桌面设备
很多标称“支持大模型”的设备,实际运行时频繁OOM或靠量化硬扛。DGX Spark靠三样东西稳住局面:
- 128GB LPDDR5x统一内存:CPU和GPU共享同一地址空间,避免数据反复拷贝;FP4格式下可原生加载200B参数模型(如DeepSeek-V2、Qwen2.5-200B),推理时无需降精度牺牲效果
- NVLink-C2C 600GB/s互联:比PCIe 5.0快5倍,让CPU预处理和GPU计算真正并行,Prefill阶段吞吐明显高于同级PCIe直连方案
- Blackwell GPU的第5代Tensor Core:对vLLM、SGLang等主流推理框架原生优化,实测Ollama+DGX Spark组合下,200B模型Decode速度可达1800 tokens/s(单机)
不只是单机,更是可扩展的AI节点
它没把自己锁死在“一台电脑”的定位里。

