突破 Blackwell 算力瓶颈：Cursor 推出Warp Decode 将 MoE 推论吞吐量提升 1.84 倍

2026-04-11 11:120阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

混合专家模型（MoE）已成为提升模型容量的标配。然而，随着 NVIDIA Blackwell 架构的到来，传统的“以专家为中心”的推论路径正逐渐暴露出它的局限性。

近日，通过彻底翻转并行化逻辑，一种名为 Warp Decode 的全新技术方案脱颖而出。它不仅在 Blackwell GPU 上实现了 1.84 倍的吞吐量提升，更在提升速度的同时增强了计算精度。

大多数传统的 MoE 推论系统是围绕“专家（Expert）”来组织 Token 的生成路径的。简单来说，就是把一堆 Token 收集起来，分发给对应的专家处理，最后再拼凑回来。这在大规模批处理（Prefill 阶段）时表现优异，但在**小批次解码（Decode 阶段）**时，整理数据带来的额外开销（Overhead）远超计算本身。
Warp Decode 彻底改变了这一点。开发团队不再将 Warp（GPU 执行指令的最小 32 线程单元）分配给专家，而是让每个 Warp 负责产生单一的输出值（神经元）。

为什么选择 Warp Decode？

最大化带宽利用：针对 Blackwell 的内存架构进行了极限优化。
消除冗余阶段：传统路径中 8 个阶段有 5 个是纯粹的数据搬运（簿记工作），Warp Decode 直接砍掉了它们。
高精度计算：减少了中间过程中的量化损失，使输出更接近完整 FP32 的参考值。

在传统的自回归解码中，一次只产生一个 Token，这使得原本为了优化大批次而设计的“收集、填充、散射”等步骤变得极其低效。
Warp Decode 通过以下方式简化了管线：

消除填充（Padding）：传统路径需要将 Token 清单填充到 2 的幂次方以符合对齐要求。Warp Decode 根本不形成“专家批次”，因此无需填充。
消除散射与合并（Scatter & Combine）：传统方式需要写回 8 个中间结果再合并。Warp Decode 直接在 Warp 内部的累加器中完成路由权重的叠加，中间结果从未离开过寄存器。

阅读全文

标签：人工智能

问题描述：

为什么选择 Warp Decode？

最大化带宽利用：针对 Blackwell 的内存架构进行了极限优化。
消除冗余阶段：传统路径中 8 个阶段有 5 个是纯粹的数据搬运（簿记工作），Warp Decode 直接砍掉了它们。
高精度计算：减少了中间过程中的量化损失，使输出更接近完整 FP32 的参考值。

消除填充（Padding）：传统路径需要将 Token 清单填充到 2 的幂次方以符合对齐要求。Warp Decode 根本不形成“专家批次”，因此无需填充。
消除散射与合并（Scatter & Combine）：传统方式需要写回 8 个中间结果再合并。Warp Decode 直接在 Warp 内部的累加器中完成路由权重的叠加，中间结果从未离开过寄存器。

阅读全文

标签：人工智能

相关推荐

相关推荐