Trinity Large:基于Nvidia B300 GPU打造的 400B 稀疏 MoE,声称超越 GLM 4.5 和 MiniMax M2.1
- 内容介绍
- 文章标签
- 相关推荐
Trinity 团队今日正式宣布推出其旗舰级模型——Trinity Large。
继两个月前发布 Nano 和 Mini 版本后,Trinity 团队决定“不再将预训练视为别人的工作”,在 2,048 张 Nvidia B300 GPU 上完成了这次训练。
此次发布最引人注目的是,团队一次性放出了三个不同的检查点版本:Preview(预览版)、Base(基础版) 和 TrueBase(纯净基础版),分别针对应用、微调和深度研究需求。
Trinity Large 是一个拥有 4000 亿(400B)参数的稀疏混合专家(MoE)模型。
- 尽管总参数量巨大,但每个 token 仅激活 130 亿(13B)参数。
- 模型包含 256 个专家,每个 token 仅选择前 4 个专家(4-of-256)。这意味着其路由激活比例仅为 1.56%。
相比之下,DeepSeek-V3 和 MiniMax-M2 的激活比例约为 3.13%,而 Qwen3 则高达 6.25%。目前只有 Meta 的 Llama 4 Maverick 在稀疏度上(0.78%)比 Trinity 更为激进。
官方表示,这种高稀疏度配合其技术报告中提到的高效注意力机制,使得 Trinity Large 在同等硬件下的推理速度比同量级竞品快 2-3 倍。从公布的吞吐量图表来看,在 8xH200 环境下,其总吞吐量(Total Throughput)显著高于 DeepSeek-V3 和 GLM-4.7。
Trinity-Large-Base:
这是完成了完整 17T(17万亿)token 训练配方的最佳预训练检查点。基准测试显示,它在数学(Minerva MATH500: 65.20)、代码(MBPP+: 88.62)和常识推理(HellaSwag: 90.11)方面均超越或持平于 Llama 4 Maverick 和 GLM-4.5。
Trinity-Large-Preview(预览版):
这是今日主要面向用户的版本。它经过了轻量级的后训练(Post-training),是一个非推理(Non-reasoning)的 Instruct 模型。
定位: 专注于创造性写作、角色扮演和实时语音助手,并在 OpenCode 和 Cline 等 Agent 环境中表现出色。
性能: 在 MMLU 上得分为 87.2,优于 Llama 4 Maverick 的 85.5。
注意: 官方强调 Preview 版不是“推理模型”。全功能的推理版(Reasoning)仍在进行后训练,预计将具备更强的逻辑能力。
虽然今日发布的是 Preview 版本,但团队展示了即将推出的 Trinity-Large (Reasoning) 版本的早期数据:
- AIME 2025: 得分高达 90.3,远超 Base 版的 24.0。
- GPQA-Diamond: 得分 75.4。
- MMLU-Pro: 得分 83.2。
MMLU-Pro AIME 2025 GPQA-Diamond3200×2400 168 KB
Trinity Large Inference Throughput Comparison3200×2400 269 KB
Base Benchmarks - White BG.png3200×2400 232 KB
Trinity Large 原生支持 512k 上下文。目前,Trinity-Large-Preview 已在 OpenRouter 上线(暂时在 128k 上下文),在完整版发布之前供用户免费使用
Arcee Platform
Trinity Large Preview (free) - API, Providers, Stats
Trinity-Large-Preview is a frontier-scale open-weight language model from Arcee, built as a 400B-parameter sparse Mixture-of-Experts with 13B active parameters per token using 4-of-256 expert routing. It excels in creative writing, storytelling,...
arcee-ai/Trinity-Large-Preview · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
arcee-ai/Trinity-Large-Base · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Arcee AI | Trinity Large: An Open 400B Sparse MoE Model
A deep dive into Trinity Large, covering architecture, sparsity, training at scale, and why we shipped Preview, Base, and TrueBase checkpoints.
arcee-ai/Trinity-Large-TrueBase · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
网友解答:--【壹】--:
RP还行,差,但不是很差。2Flash的水平
--【贰】--:
看到不少老美在吹这个模型,颇有“美国版的DeepSeek的味道”
--【叁】--:
佬有没有哪里可以看模型对rp能力的榜单或者是一键测试什么的
--【肆】--:
有道理的
--【伍】--:
试了一下角色扮演,还行。起码比her强。
--【陆】--:
这模型从哪冒出来的,之前怎么没听说过
--【柒】--:
抓到你了
--【捌】--:
测试模型:Trinity Large Preview
image1853×905 99.4 KB
以 iOS 18 的设计风格做一个带有动画效果的天气卡片,要求是使用 HTML、CSS 和基础 JavaScript,使用横板天气页面(拥有 4 个天气卡片 (晴天,大风,暴雨,暴雪))。应足够美观,实现一定的交互效果。
--【玖】--:
现在用的是 8bit 量化版
--【拾】--:
让酒馆佬测试一下我已经发现这些模型的规律了,酒馆表现不错的,肯定性能不错。酒馆表现不好的,肯定不值得玩。
--【拾壹】--:
那应该就没超过glm4.6了
--【拾贰】--: Bunn:
持平于 Llama 4 Maverick
我早就想说 虽然小扎的模型搞得一塌糊涂,但是至少在过去两三年内,都是各大ai模型出来的时候必须对比的模型() 怎么说至少有点跑分吧
Trinity 团队今日正式宣布推出其旗舰级模型——Trinity Large。
继两个月前发布 Nano 和 Mini 版本后,Trinity 团队决定“不再将预训练视为别人的工作”,在 2,048 张 Nvidia B300 GPU 上完成了这次训练。
此次发布最引人注目的是,团队一次性放出了三个不同的检查点版本:Preview(预览版)、Base(基础版) 和 TrueBase(纯净基础版),分别针对应用、微调和深度研究需求。
Trinity Large 是一个拥有 4000 亿(400B)参数的稀疏混合专家(MoE)模型。
- 尽管总参数量巨大,但每个 token 仅激活 130 亿(13B)参数。
- 模型包含 256 个专家,每个 token 仅选择前 4 个专家(4-of-256)。这意味着其路由激活比例仅为 1.56%。
相比之下,DeepSeek-V3 和 MiniMax-M2 的激活比例约为 3.13%,而 Qwen3 则高达 6.25%。目前只有 Meta 的 Llama 4 Maverick 在稀疏度上(0.78%)比 Trinity 更为激进。
官方表示,这种高稀疏度配合其技术报告中提到的高效注意力机制,使得 Trinity Large 在同等硬件下的推理速度比同量级竞品快 2-3 倍。从公布的吞吐量图表来看,在 8xH200 环境下,其总吞吐量(Total Throughput)显著高于 DeepSeek-V3 和 GLM-4.7。
Trinity-Large-Base:
这是完成了完整 17T(17万亿)token 训练配方的最佳预训练检查点。基准测试显示,它在数学(Minerva MATH500: 65.20)、代码(MBPP+: 88.62)和常识推理(HellaSwag: 90.11)方面均超越或持平于 Llama 4 Maverick 和 GLM-4.5。
Trinity-Large-Preview(预览版):
这是今日主要面向用户的版本。它经过了轻量级的后训练(Post-training),是一个非推理(Non-reasoning)的 Instruct 模型。
定位: 专注于创造性写作、角色扮演和实时语音助手,并在 OpenCode 和 Cline 等 Agent 环境中表现出色。
性能: 在 MMLU 上得分为 87.2,优于 Llama 4 Maverick 的 85.5。
注意: 官方强调 Preview 版不是“推理模型”。全功能的推理版(Reasoning)仍在进行后训练,预计将具备更强的逻辑能力。
虽然今日发布的是 Preview 版本,但团队展示了即将推出的 Trinity-Large (Reasoning) 版本的早期数据:
- AIME 2025: 得分高达 90.3,远超 Base 版的 24.0。
- GPQA-Diamond: 得分 75.4。
- MMLU-Pro: 得分 83.2。
MMLU-Pro AIME 2025 GPQA-Diamond3200×2400 168 KB
Trinity Large Inference Throughput Comparison3200×2400 269 KB
Base Benchmarks - White BG.png3200×2400 232 KB
Trinity Large 原生支持 512k 上下文。目前,Trinity-Large-Preview 已在 OpenRouter 上线(暂时在 128k 上下文),在完整版发布之前供用户免费使用
Arcee Platform
Trinity Large Preview (free) - API, Providers, Stats
Trinity-Large-Preview is a frontier-scale open-weight language model from Arcee, built as a 400B-parameter sparse Mixture-of-Experts with 13B active parameters per token using 4-of-256 expert routing. It excels in creative writing, storytelling,...
arcee-ai/Trinity-Large-Preview · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
arcee-ai/Trinity-Large-Base · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Arcee AI | Trinity Large: An Open 400B Sparse MoE Model
A deep dive into Trinity Large, covering architecture, sparsity, training at scale, and why we shipped Preview, Base, and TrueBase checkpoints.
arcee-ai/Trinity-Large-TrueBase · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
网友解答:--【壹】--:
RP还行,差,但不是很差。2Flash的水平
--【贰】--:
看到不少老美在吹这个模型,颇有“美国版的DeepSeek的味道”
--【叁】--:
佬有没有哪里可以看模型对rp能力的榜单或者是一键测试什么的
--【肆】--:
有道理的
--【伍】--:
试了一下角色扮演,还行。起码比her强。
--【陆】--:
这模型从哪冒出来的,之前怎么没听说过
--【柒】--:
抓到你了
--【捌】--:
测试模型:Trinity Large Preview
image1853×905 99.4 KB
以 iOS 18 的设计风格做一个带有动画效果的天气卡片,要求是使用 HTML、CSS 和基础 JavaScript,使用横板天气页面(拥有 4 个天气卡片 (晴天,大风,暴雨,暴雪))。应足够美观,实现一定的交互效果。
--【玖】--:
现在用的是 8bit 量化版
--【拾】--:
让酒馆佬测试一下我已经发现这些模型的规律了,酒馆表现不错的,肯定性能不错。酒馆表现不好的,肯定不值得玩。
--【拾壹】--:
那应该就没超过glm4.6了
--【拾贰】--: Bunn:
持平于 Llama 4 Maverick
我早就想说 虽然小扎的模型搞得一塌糊涂,但是至少在过去两三年内,都是各大ai模型出来的时候必须对比的模型() 怎么说至少有点跑分吧

