现在的顶级模型都是什么参数量级的?
- 内容介绍
- 文章标签
- 相关推荐
纯好奇。Opus 这么贵,是不是参数量会很恐怖?GPT Pro 模型运行速度超慢,是不是参数量也很恐怖?Gemini 和 claude 都跑在 tpu 上,参数量和跑在 GPU 上的模型会不会有显著差别呢?
网友解答:--【壹】--:
Qwen max 系列多大不知道
Kimi k3 之前传过要上 2T
DeepSeek v4 也据说要上 1T
Minimax m3 也说要扩大参数量,看能不能上 1T
GLM 5 744B 距离 1T 差距也小了
2026年底,国内模型普遍 1T 应该问题不大,开源与否就不知道了
而且这些级别的模型开源与否,与大部分人早就无关了
最多你是某互联网大厂的员工,你的厂子自己部署了某开源模型
厂子只允许你调用私有化部署的大模型
它们开源最有价值的地方,就类似于 Cursor Composer 2
虽然一开始 Cursor 没有指明,它们是基于 Kimi k2.5 的工作
但是现在大家都知道了,也相当于帮 Kimi 踩了一条路
这一点,普通开发者是几乎不可能做到的
社区也用 Opus 4.6 的数据蒸馏,帮助提升 Qwen 3.5
结果是不怎么样
--【贰】--:
之前听说过传言opus早就突破4T了… 回看开源阵营K2才突破1T, 国产算力任重道远啊.
不过反过来看, 才这么点参数量就有六七成的效果, 也可以说未来可期~
--【叁】--:
坐等上p。
纯好奇。Opus 这么贵,是不是参数量会很恐怖?GPT Pro 模型运行速度超慢,是不是参数量也很恐怖?Gemini 和 claude 都跑在 tpu 上,参数量和跑在 GPU 上的模型会不会有显著差别呢?
网友解答:--【壹】--:
Qwen max 系列多大不知道
Kimi k3 之前传过要上 2T
DeepSeek v4 也据说要上 1T
Minimax m3 也说要扩大参数量,看能不能上 1T
GLM 5 744B 距离 1T 差距也小了
2026年底,国内模型普遍 1T 应该问题不大,开源与否就不知道了
而且这些级别的模型开源与否,与大部分人早就无关了
最多你是某互联网大厂的员工,你的厂子自己部署了某开源模型
厂子只允许你调用私有化部署的大模型
它们开源最有价值的地方,就类似于 Cursor Composer 2
虽然一开始 Cursor 没有指明,它们是基于 Kimi k2.5 的工作
但是现在大家都知道了,也相当于帮 Kimi 踩了一条路
这一点,普通开发者是几乎不可能做到的
社区也用 Opus 4.6 的数据蒸馏,帮助提升 Qwen 3.5
结果是不怎么样
--【贰】--:
之前听说过传言opus早就突破4T了… 回看开源阵营K2才突破1T, 国产算力任重道远啊.
不过反过来看, 才这么点参数量就有六七成的效果, 也可以说未来可期~
--【叁】--:
坐等上p。

