Minimax abab6.5s模型发布，性价比与速度双优，有何独特之处？

2026-05-07 20:240阅读0评论SEO资源

本文共计983个文字，预计阅读时间需要4分钟。

如果您关注大模型性能与成本平衡点，发现abab6.5s在响应速度和单位token成本上表现突出，这可能是由于模型在MoE架构与线性注意力的协同优化。以下是对该模型发布特性的具体说明：

一、MoE 架构实现吞吐率跃升

abab6.5s 采用万亿参数规模的混合专家（MoE）架构，在推理时仅激活部分专家子网络，显著降低单次前向计算量，从而在保持语言理解能力的同时提升处理效率。

1、在相同硬件条件下，abab6.5s 的 token 处理速度可达近 3 万字/秒。

2、MoE 模型相较同等规模稠密模型，实际运行速度快 3—5 倍。

3、该设计使模型在批量文本处理场景中单位 token 成本大幅下降。

传统注意力机制的计算复杂度随上下文长度呈平方增长，而 abab6.5s 集成线性注意力，将复杂度压缩至与输入长度呈线性关系，支撑 200k tokens 超长上下文稳定运行。

1、启用 254K 长上下文窗口时，内存占用与延迟增长趋缓。

2、对 10 万字级文档摘要、法律合同比对等任务可端到端完成，无需分块截断。

3、线性注意力使模型在超长文本中仍维持高 token 输出稳定性。

为确保用户精准获取 abab6.5s 的服务优势，MiniMax 明确要求调用方在接口请求中显式声明模型标识，并通过响应头实时监控资源消耗。

标签：MiniMax