突破 Blackwell 算力瓶颈:Cursor 推出Warp Decode 将 MoE 推论吞吐量提升 1.84 倍

2026-04-11 11:120阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

混合专家模型(MoE) 已成为提升模型容量的标配。然而,随着 NVIDIA Blackwell 架构的到来,传统的“以专家为中心”的推论路径正逐渐暴露出它的局限性。

近日,通过彻底翻转并行化逻辑,一种名为 Warp Decode 的全新技术方案脱颖而出。它不仅在 Blackwell GPU 上实现了 1.84 倍 的吞吐量提升,更在提升速度的同时增强了计算精度。

大多数传统的 MoE 推论系统是围绕“专家(Expert)”来组织 Token 的生成路径的。简单来说,就是把一堆 Token 收集起来,分发给对应的专家处理,最后再拼凑回来。这在大规模批处理(Prefill 阶段)时表现优异,但在**小批次解码(Decode 阶段)**时,整理数据带来的额外开销(Overhead)远超计算本身。
Warp Decode 彻底改变了这一点。 开发团队不再将 Warp(GPU 执行指令的最小 32 线程单元)分配给专家,而是让每个 Warp 负责产生单一的输出值(神经元)。

为什么选择 Warp Decode?

  • 最大化带宽利用: 针对 Blackwell 的内存架构进行了极限优化。
  • 消除冗余阶段: 传统路径中 8 个阶段有 5 个是纯粹的数据搬运(簿记工作),Warp Decode 直接砍掉了它们。
  • 高精度计算: 减少了中间过程中的量化损失,使输出更接近完整 FP32 的参考值。

在传统的自回归解码中,一次只产生一个 Token,这使得原本为了优化大批次而设计的“收集、填充、散射”等步骤变得极其低效。
Warp Decode 通过以下方式简化了管线:

  • 消除填充(Padding): 传统路径需要将 Token 清单填充到 2 的幂次方以符合对齐要求。Warp Decode 根本不形成“专家批次”,因此无需填充。
  • 消除散射与合并(Scatter & Combine): 传统方式需要写回 8 个中间结果再合并。Warp Decode 直接在 Warp 内部的累加器中完成路由权重的叠加,中间结果从未离开过寄存器。
阅读全文
标签:人工智能
问题描述:

混合专家模型(MoE) 已成为提升模型容量的标配。然而,随着 NVIDIA Blackwell 架构的到来,传统的“以专家为中心”的推论路径正逐渐暴露出它的局限性。

近日,通过彻底翻转并行化逻辑,一种名为 Warp Decode 的全新技术方案脱颖而出。它不仅在 Blackwell GPU 上实现了 1.84 倍 的吞吐量提升,更在提升速度的同时增强了计算精度。

大多数传统的 MoE 推论系统是围绕“专家(Expert)”来组织 Token 的生成路径的。简单来说,就是把一堆 Token 收集起来,分发给对应的专家处理,最后再拼凑回来。这在大规模批处理(Prefill 阶段)时表现优异,但在**小批次解码(Decode 阶段)**时,整理数据带来的额外开销(Overhead)远超计算本身。
Warp Decode 彻底改变了这一点。 开发团队不再将 Warp(GPU 执行指令的最小 32 线程单元)分配给专家,而是让每个 Warp 负责产生单一的输出值(神经元)。

为什么选择 Warp Decode?

  • 最大化带宽利用: 针对 Blackwell 的内存架构进行了极限优化。
  • 消除冗余阶段: 传统路径中 8 个阶段有 5 个是纯粹的数据搬运(簿记工作),Warp Decode 直接砍掉了它们。
  • 高精度计算: 减少了中间过程中的量化损失,使输出更接近完整 FP32 的参考值。

在传统的自回归解码中,一次只产生一个 Token,这使得原本为了优化大批次而设计的“收集、填充、散射”等步骤变得极其低效。
Warp Decode 通过以下方式简化了管线:

  • 消除填充(Padding): 传统路径需要将 Token 清单填充到 2 的幂次方以符合对齐要求。Warp Decode 根本不形成“专家批次”,因此无需填充。
  • 消除散射与合并(Scatter & Combine): 传统方式需要写回 8 个中间结果再合并。Warp Decode 直接在 Warp 内部的累加器中完成路由权重的叠加,中间结果从未离开过寄存器。
阅读全文
标签:人工智能