一个意想不到的本地代码模型的测试结果
- 内容介绍
- 文章标签
- 相关推荐
三个模型评测测试报告
1). 测试概述
本次测试针对以下三个模型进行了统一条件下的对比评测:
- Gemma 4 - 26B A4B x Claude Opus 4.6 [[TeichAI/Gemma 4 - 26B A4B x Claude Opus 4.6-Distill · Hugging Face](https://huggingface.co/TeichAI/Gemma 4 - 26B A4B x Claude Opus 4.6-Distill)]
- Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 [Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 · Hugging Face]
- Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled [samuelcardillo/Qwen3-Coder-Next-Opus-4.6-Reasoning-Distilled-GGUF · Hugging Face]
我下载的都是Q4_K_M量化版
2).电脑硬件参数
| 硬件类型 | 型号/规格 |
|---|---|
| 显卡 | NVIDIA GeForce RTX 4090 |
| 内存 | 64GB DDR5 |
| CPU | Intel Core i9-13900K |
21920×1026 320 KB
32919×2055 333 KB
43831×2076 458 KB
测试目标是从逻辑推理能力、代码生成能力、响应速度、运行稳定性四个维度,评估三个模型在实际使用场景中的综合表现。
2. 测试方法与统一设置
为保证横向比较公平,本次评测使用了完全一致的测试方式和参数设置。
2.1 统一参数
- temperature:0.0
- top_p:1.0
- 每题采样次数:1
- 不使用 LLM 裁判
- 逻辑题采用 exact match 评分
- 代码题采用程序执行与测试通过率评分
2.2 测试集规模
- GSM8K:20 题
- BBH:20 题
- HumanEval+:10 题
- MBPP+:10 题
2.3 评分公式
- 逻辑分 = (GSM8K + BBH) / 2
- 代码分 = (HumanEval+ + MBPP+) / 2
- 总分 = (逻辑分 + 代码分) / 2
3. 总体结果汇总
| 排名 | 模型 | 逻辑分 | 代码分 | 总分 | 平均时延 | 执行失败率 |
|---|---|---|---|---|---|---|
| 1 | Gemma 4 - 26B A4B x Claude Opus 4.6 | 0.7750 | 0.9500 | 0.8625 | 18.49s | 0.05 |
| 1 | Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 | 0.7250 | 1.0000 | 0.8625 | 81.08s | 0.00 |
| 3 | Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled | 0.6000 | 1.0000 | 0.8000 | 58.25s | 0.00 |
4. 单模型详细测试结果
4.1 Gemma 4 - 26B A4B x Claude Opus 4.6
4.1.1 分项成绩
| 测试项 | 正确 / 通过情况 | 得分 | 平均时延 | 执行失败率 |
|---|---|---|---|---|
| GSM8K | 18 / 20 | 0.90 | 18.38s | - |
| BBH | 13 / 20 | 0.65 | 20.64s | - |
| HumanEval+ | 9 / 10 | 0.90 | 18.73s | 0.10 |
| MBPP+ | 10 / 10 | 1.00 | 16.20s | 0.00 |
4.1.2 表现分析
- 在三者中,综合逻辑能力最强,尤其 BBH 成绩明显领先另外两款模型。
- GSM8K 达到 0.90,说明在基础数学与逐步推理问题上表现稳定。
- 代码能力整体很强,MBPP+ 满分,HumanEval+ 仅丢失 1 题,说明其在常规编程任务和函数级实现上具备较高可用性。
- 平均时延仅 18.49 秒,明显快于另外两款模型,响应效率优势非常突出。
- 唯一明显短板是存在一定执行失败率,总体失败率为 0.05,且 HumanEval+ 单项失败率达到 0.10,说明在极少数代码生成场景下稳定性略弱于两款 Qwen 模型。
4.1.3 结论
Gemma 4 - 26B A4B x Claude Opus 4.6 是本次测试中最均衡且响应最快的模型。若使用场景同时重视逻辑理解、代码能力与交互效率,它是综合意义上的首选。
4.2 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2
4.2.1 分项成绩
| 测试项 | 正确 / 通过情况 | 得分 | 平均时延 | 执行失败率 |
|---|---|---|---|---|
| GSM8K | 20 / 20 | 1.00 | 100.19s | - |
| BBH | 9 / 20 | 0.45 | 61.06s | - |
| HumanEval+ | 10 / 10 | 1.00 | 93.66s | 0.00 |
| MBPP+ | 10 / 10 | 1.00 | 69.40s | 0.00 |
4.2.2 表现分析
- GSM8K 取得满分,说明该模型在数学计算、步骤式推导和确定性答案问题上表现极强。
- 代码能力同样达到满分,HumanEval+ 与 MBPP+ 均为 1.00,体现出非常稳定的代码生成与测试通过能力。
- 稳定性是其优势之一,所有代码测试项执行失败率均为 0,总失败率也为 0。
- 主要短板集中在 BBH,只有 0.45,表明在更复杂、更偏综合抽象的逻辑题上不如 Gemma 4 - 26B A4B x Claude Opus 4.6。
- 平均时延达到 81.08 秒,是三者中最慢的模型,速度代价非常明显。
4.2.3 结论
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 是本次测试中代码能力最强、数学推理最强、稳定性最好的模型之一,但明显牺牲了响应速度。如果主要任务是代码生成、数学题求解或对稳定性要求较高,它非常适合;如果强调交互效率,则不占优。
4.3 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled
4.3.1 分项成绩
| 测试项 | 正确 / 通过情况 | 得分 | 平均时延 | 执行失败率 |
|---|---|---|---|---|
| GSM8K | 18 / 20 | 0.90 | 26.57s | - |
| BBH | 6 / 20 | 0.30 | 33.21s | - |
| HumanEval+ | 10 / 10 | 1.00 | 129.31s | 0.00 |
| MBPP+ | 10 / 10 | 1.00 | 43.93s | 0.00 |
4.3.2 表现分析
- 代码能力达到满分,说明该模型在编程题生成方面表现很强,特别适合偏代码产出的任务。
- GSM8K 得分 0.90,说明基础数学和常规推理并不差。
- BBH 仅 0.30,是三者中最低,拉低了整体逻辑成绩,也说明其在更复杂的综合逻辑任务上存在明显短板。
- 稳定性良好,执行失败率为 0,在代码执行层面比较可靠。
- 速度方面整体快于 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2,但仍明显慢于 Gemma 4 - 26B A4B x Claude Opus 4.6;尤其 HumanEval+ 平均时延较高,说明在部分代码任务上响应成本较大。
4.3.3 结论
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 更像是一个偏代码导向的模型。它在代码测试项上表现优秀,但逻辑能力,尤其是 BBH 这类更复杂的推理任务,明显弱于前两者。因此更适合作为纯代码场景下的备选,而不是综合型主力模型。
5. 横向对比分析
5.1 逻辑能力对比
| 模型 | GSM8K | BBH | 逻辑分 |
|---|---|---|---|
| Gemma 4 - 26B A4B x Claude Opus 4.6 | 0.90 | 0.65 | 0.775 |
| Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 | 1.00 | 0.45 | 0.725 |
| Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled | 0.90 | 0.30 | 0.600 |
分析:
- Gemma 4 - 26B A4B x Claude Opus 4.6 在逻辑综合能力上排名第一。
- Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 在 GSM8K 上达到满分,数学推理能力最突出,但 BBH 拖累明显。
- Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 的主要问题也集中在 BBH,这使其逻辑总分显著落后。
5.2 代码能力对比
| 模型 | HumanEval+ | MBPP+ | 代码分 |
|---|---|---|---|
| Gemma 4 - 26B A4B x Claude Opus 4.6 | 0.90 | 1.00 | 0.950 |
| Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 | 1.00 | 1.00 | 1.000 |
| Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled | 1.00 | 1.00 | 1.000 |
分析:
- Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 与 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 在代码能力上并列第一。
- Gemma 4 - 26B A4B x Claude Opus 4.6 仅在 HumanEval+ 少失 1 题,整体仍处于很高水平。
- 如果只看代码项,两款 Qwen 模型略占优势。
5.3 速度对比
| 模型 | 平均时延 |
|---|---|
| Gemma 4 - 26B A4B x Claude Opus 4.6 | 18.49s |
| Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled | 58.25s |
| Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 | 81.08s |
分析:
- Gemma 4 - 26B A4B x Claude Opus 4.6 速度优势非常明显。
- Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 居中。
- Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 最慢,实际使用中需要接受更高响应时延。
5.4 稳定性对比
| 模型 | 执行失败率 |
|---|---|
| Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 | 0.00 |
| Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled | 0.00 |
| Gemma 4 - 26B A4B x Claude Opus 4.6 | 0.05 |
分析:
- 两款 Qwen 模型在此次测试中没有出现执行失败,稳定性表现更好。
- Gemma 4 - 26B A4B x Claude Opus 4.6 虽然存在少量失败,但不影响其整体第一梯队地位。
6. 关键结论
6.1 综合排名
- Gemma 4 - 26B A4B x Claude Opus 4.6(与 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 并列总分第一,但速度优势显著)
- Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2(与 Gemma 4 - 26B A4B x Claude Opus 4.6 并列总分第一,但速度明显偏慢)
- Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled
6.2 场景化推荐
更重视综合能力与响应速度
推荐:Gemma 4 - 26B A4B x Claude Opus 4.6
原因:
- 逻辑能力第一
- 总分并列第一
- 平均时延最低
- 综合体验最好
更重视代码生成、数学能力与稳定性
推荐:Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2
原因:
- GSM8K 满分
- 代码项满分
- 执行失败率为 0
- 更适合偏代码与偏数学任务
更重视纯代码用途,且能接受逻辑短板
推荐:Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled
原因:
- 代码项满分
- 执行稳定
- 适合作为偏代码任务模型
- 但不适合作为综合能力主模型
7. 最终总结
本次测试显示,三个模型都具备较强的代码能力,但在“逻辑、速度、稳定性”的平衡上差异明显。
- Gemma 4 - 26B A4B x Claude Opus 4.6:综合最均衡,逻辑最强,速度最快,适合作为默认主力模型。
- Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2:代码和数学能力极强,稳定性优秀,但速度最慢。
- Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled:代码能力强,但逻辑短板明显,更适合作为偏代码专用模型。
如果从实际落地角度只选一个模型,优先推荐 Gemma 4 - 26B A4B x Claude Opus 4.6;如果是代码优先场景,则 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 也非常有竞争力。
令我没想到的是Qwen3-Coder-Next这么拉跨,跟Qwen3.5-27B实力相当,难道是因为稀疏模型的原因吗,除了测评结果,本人更倾向于使用Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2
网友解答:--【壹】--:
26B为MoE模型实际上就3B左右吧 12G的显卡我感觉也能跑
--【贰】--:
很厉害的干货分享,感谢佬友分享。
想买mac本地部署的冲动又大了几分
--【叁】--:
这个有什么关系吗,我也是第一次跑,不过还行能跑动
--【肆】--:
太棒了,这俩模型,我也都部署了,但是没做太详细的测评,个人使用下来觉得 Gemma 4 可能要更聪明点,综合能力要更好,可能吃的是google的资料
--【伍】--:
测试的都是 Claude Opus 4.6 微调版本啊,有没有原生版本的测试
4090 能跑动 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled Q4_K_M
--【陆】--:
我主要侧重于写代码能力,我想微调版基于原生,应该相差结果并不大
--【柒】--:
哦,没什么,就是对比时还是尽量控制变量,不然得出qwen3.5拿时间换智力的逻辑的程度就不太对了(统一用混合专家模型比较,qwen3.5应该不至于上一分钟,80秒让人看起来太夸张了,毕竟你gamma都没有用稠密)
--【捌】--:
反而Qwen3.5-27B比较耗时,因为是稠密模型的缘故吧,不过内存占用是真的低,35G左右
--【玖】--:
嗯,我只要是侧重于实战,没太在乎哪个模型是什么类别,综合来说Qwen3.5 27B是一个不错的选择,分析代码的逻辑链我比较喜欢
--【拾】--:
最大的影响会导致延迟严重
80B 的模型,Opus 数据集对它能力的改变几乎没有,主要是回复风格的改变
--【拾壹】--:
才发现里面夹了个Qwen3.5的27B模型,稠密模型和其他两个比速度,有点意义不明了吧,不过其他的佬测的都挺好的,就是其中和速度有关的几句评价可以的话还是不要太强调吧,让人误会,我一开始都默认你用的是qwen3.5的混合专家模型了
--【拾贰】--:
说的有道理,我比较看重质量,所以等一下没什么,毕竟如果接入网络大模型也还有中转,代理的耗时,也不快,最重要的能跑的动且能输出满意的结果
--【拾叁】--: Grogu:
Gemma4-31B
Gemma4-31B也跑了,不过有点跑不动,后面就删了,我选择的最适合我的这几个测试了一下,不是专业测评,见笑了
--【拾肆】--:
稠密模型 + token的回复速度更快 + 综合表现,我觉得更舒服吧,但是qwen3.5-27-opus rd 也是小钢炮,就是慢了点,两个差不多是不相上下,写代码更强
--【拾伍】--: 泗水亭长,post:5, topic:1928391:
Gemma 4
Gemma 4 这么强吗,可惜我显卡太垃圾了
--【拾陆】--:
对,稠密模型会更耗资源一些
三个模型,不同代,不同架构,参数体量差别又很大
Qwen3.5-27B 可以换成 Qwen3.5-35-A3B 试试
或者
Gemma4-26B-A4B 换成 Gemma4-31B,Qwen3-Coder-Next 弃掉
或者比较
Qwen3.5-27B,Gemma4-31B,Qwen3.5-35-A3B,Gemma4-26B-A4B
这四个
--【拾柒】--:
赞同,稠密模型更稳,速度是慢一点,但是分析逻辑清晰,试了几个本地代码的解析,效果不错,我接入claude code 也是无感的,还不错,就是测试一些极端的思考题就不太行
--【拾捌】--:
佬友跑的是 Qwen3-Coder-Next Q4_K_M,内存卸载了吧
--【拾玖】--:
在充满token焦虑的时代,处理一些不是特别复杂的任务,或是数据敏感的任务,是一个不错的选择,下一步想让龙虾接入试试,等有时间研究下
三个模型评测测试报告
1). 测试概述
本次测试针对以下三个模型进行了统一条件下的对比评测:
- Gemma 4 - 26B A4B x Claude Opus 4.6 [[TeichAI/Gemma 4 - 26B A4B x Claude Opus 4.6-Distill · Hugging Face](https://huggingface.co/TeichAI/Gemma 4 - 26B A4B x Claude Opus 4.6-Distill)]
- Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 [Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 · Hugging Face]
- Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled [samuelcardillo/Qwen3-Coder-Next-Opus-4.6-Reasoning-Distilled-GGUF · Hugging Face]
我下载的都是Q4_K_M量化版
2).电脑硬件参数
| 硬件类型 | 型号/规格 |
|---|---|
| 显卡 | NVIDIA GeForce RTX 4090 |
| 内存 | 64GB DDR5 |
| CPU | Intel Core i9-13900K |
21920×1026 320 KB
32919×2055 333 KB
43831×2076 458 KB
测试目标是从逻辑推理能力、代码生成能力、响应速度、运行稳定性四个维度,评估三个模型在实际使用场景中的综合表现。
2. 测试方法与统一设置
为保证横向比较公平,本次评测使用了完全一致的测试方式和参数设置。
2.1 统一参数
- temperature:0.0
- top_p:1.0
- 每题采样次数:1
- 不使用 LLM 裁判
- 逻辑题采用 exact match 评分
- 代码题采用程序执行与测试通过率评分
2.2 测试集规模
- GSM8K:20 题
- BBH:20 题
- HumanEval+:10 题
- MBPP+:10 题
2.3 评分公式
- 逻辑分 = (GSM8K + BBH) / 2
- 代码分 = (HumanEval+ + MBPP+) / 2
- 总分 = (逻辑分 + 代码分) / 2
3. 总体结果汇总
| 排名 | 模型 | 逻辑分 | 代码分 | 总分 | 平均时延 | 执行失败率 |
|---|---|---|---|---|---|---|
| 1 | Gemma 4 - 26B A4B x Claude Opus 4.6 | 0.7750 | 0.9500 | 0.8625 | 18.49s | 0.05 |
| 1 | Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 | 0.7250 | 1.0000 | 0.8625 | 81.08s | 0.00 |
| 3 | Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled | 0.6000 | 1.0000 | 0.8000 | 58.25s | 0.00 |
4. 单模型详细测试结果
4.1 Gemma 4 - 26B A4B x Claude Opus 4.6
4.1.1 分项成绩
| 测试项 | 正确 / 通过情况 | 得分 | 平均时延 | 执行失败率 |
|---|---|---|---|---|
| GSM8K | 18 / 20 | 0.90 | 18.38s | - |
| BBH | 13 / 20 | 0.65 | 20.64s | - |
| HumanEval+ | 9 / 10 | 0.90 | 18.73s | 0.10 |
| MBPP+ | 10 / 10 | 1.00 | 16.20s | 0.00 |
4.1.2 表现分析
- 在三者中,综合逻辑能力最强,尤其 BBH 成绩明显领先另外两款模型。
- GSM8K 达到 0.90,说明在基础数学与逐步推理问题上表现稳定。
- 代码能力整体很强,MBPP+ 满分,HumanEval+ 仅丢失 1 题,说明其在常规编程任务和函数级实现上具备较高可用性。
- 平均时延仅 18.49 秒,明显快于另外两款模型,响应效率优势非常突出。
- 唯一明显短板是存在一定执行失败率,总体失败率为 0.05,且 HumanEval+ 单项失败率达到 0.10,说明在极少数代码生成场景下稳定性略弱于两款 Qwen 模型。
4.1.3 结论
Gemma 4 - 26B A4B x Claude Opus 4.6 是本次测试中最均衡且响应最快的模型。若使用场景同时重视逻辑理解、代码能力与交互效率,它是综合意义上的首选。
4.2 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2
4.2.1 分项成绩
| 测试项 | 正确 / 通过情况 | 得分 | 平均时延 | 执行失败率 |
|---|---|---|---|---|
| GSM8K | 20 / 20 | 1.00 | 100.19s | - |
| BBH | 9 / 20 | 0.45 | 61.06s | - |
| HumanEval+ | 10 / 10 | 1.00 | 93.66s | 0.00 |
| MBPP+ | 10 / 10 | 1.00 | 69.40s | 0.00 |
4.2.2 表现分析
- GSM8K 取得满分,说明该模型在数学计算、步骤式推导和确定性答案问题上表现极强。
- 代码能力同样达到满分,HumanEval+ 与 MBPP+ 均为 1.00,体现出非常稳定的代码生成与测试通过能力。
- 稳定性是其优势之一,所有代码测试项执行失败率均为 0,总失败率也为 0。
- 主要短板集中在 BBH,只有 0.45,表明在更复杂、更偏综合抽象的逻辑题上不如 Gemma 4 - 26B A4B x Claude Opus 4.6。
- 平均时延达到 81.08 秒,是三者中最慢的模型,速度代价非常明显。
4.2.3 结论
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 是本次测试中代码能力最强、数学推理最强、稳定性最好的模型之一,但明显牺牲了响应速度。如果主要任务是代码生成、数学题求解或对稳定性要求较高,它非常适合;如果强调交互效率,则不占优。
4.3 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled
4.3.1 分项成绩
| 测试项 | 正确 / 通过情况 | 得分 | 平均时延 | 执行失败率 |
|---|---|---|---|---|
| GSM8K | 18 / 20 | 0.90 | 26.57s | - |
| BBH | 6 / 20 | 0.30 | 33.21s | - |
| HumanEval+ | 10 / 10 | 1.00 | 129.31s | 0.00 |
| MBPP+ | 10 / 10 | 1.00 | 43.93s | 0.00 |
4.3.2 表现分析
- 代码能力达到满分,说明该模型在编程题生成方面表现很强,特别适合偏代码产出的任务。
- GSM8K 得分 0.90,说明基础数学和常规推理并不差。
- BBH 仅 0.30,是三者中最低,拉低了整体逻辑成绩,也说明其在更复杂的综合逻辑任务上存在明显短板。
- 稳定性良好,执行失败率为 0,在代码执行层面比较可靠。
- 速度方面整体快于 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2,但仍明显慢于 Gemma 4 - 26B A4B x Claude Opus 4.6;尤其 HumanEval+ 平均时延较高,说明在部分代码任务上响应成本较大。
4.3.3 结论
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 更像是一个偏代码导向的模型。它在代码测试项上表现优秀,但逻辑能力,尤其是 BBH 这类更复杂的推理任务,明显弱于前两者。因此更适合作为纯代码场景下的备选,而不是综合型主力模型。
5. 横向对比分析
5.1 逻辑能力对比
| 模型 | GSM8K | BBH | 逻辑分 |
|---|---|---|---|
| Gemma 4 - 26B A4B x Claude Opus 4.6 | 0.90 | 0.65 | 0.775 |
| Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 | 1.00 | 0.45 | 0.725 |
| Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled | 0.90 | 0.30 | 0.600 |
分析:
- Gemma 4 - 26B A4B x Claude Opus 4.6 在逻辑综合能力上排名第一。
- Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 在 GSM8K 上达到满分,数学推理能力最突出,但 BBH 拖累明显。
- Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 的主要问题也集中在 BBH,这使其逻辑总分显著落后。
5.2 代码能力对比
| 模型 | HumanEval+ | MBPP+ | 代码分 |
|---|---|---|---|
| Gemma 4 - 26B A4B x Claude Opus 4.6 | 0.90 | 1.00 | 0.950 |
| Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 | 1.00 | 1.00 | 1.000 |
| Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled | 1.00 | 1.00 | 1.000 |
分析:
- Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 与 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 在代码能力上并列第一。
- Gemma 4 - 26B A4B x Claude Opus 4.6 仅在 HumanEval+ 少失 1 题,整体仍处于很高水平。
- 如果只看代码项,两款 Qwen 模型略占优势。
5.3 速度对比
| 模型 | 平均时延 |
|---|---|
| Gemma 4 - 26B A4B x Claude Opus 4.6 | 18.49s |
| Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled | 58.25s |
| Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 | 81.08s |
分析:
- Gemma 4 - 26B A4B x Claude Opus 4.6 速度优势非常明显。
- Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 居中。
- Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 最慢,实际使用中需要接受更高响应时延。
5.4 稳定性对比
| 模型 | 执行失败率 |
|---|---|
| Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 | 0.00 |
| Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled | 0.00 |
| Gemma 4 - 26B A4B x Claude Opus 4.6 | 0.05 |
分析:
- 两款 Qwen 模型在此次测试中没有出现执行失败,稳定性表现更好。
- Gemma 4 - 26B A4B x Claude Opus 4.6 虽然存在少量失败,但不影响其整体第一梯队地位。
6. 关键结论
6.1 综合排名
- Gemma 4 - 26B A4B x Claude Opus 4.6(与 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 并列总分第一,但速度优势显著)
- Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2(与 Gemma 4 - 26B A4B x Claude Opus 4.6 并列总分第一,但速度明显偏慢)
- Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled
6.2 场景化推荐
更重视综合能力与响应速度
推荐:Gemma 4 - 26B A4B x Claude Opus 4.6
原因:
- 逻辑能力第一
- 总分并列第一
- 平均时延最低
- 综合体验最好
更重视代码生成、数学能力与稳定性
推荐:Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2
原因:
- GSM8K 满分
- 代码项满分
- 执行失败率为 0
- 更适合偏代码与偏数学任务
更重视纯代码用途,且能接受逻辑短板
推荐:Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled
原因:
- 代码项满分
- 执行稳定
- 适合作为偏代码任务模型
- 但不适合作为综合能力主模型
7. 最终总结
本次测试显示,三个模型都具备较强的代码能力,但在“逻辑、速度、稳定性”的平衡上差异明显。
- Gemma 4 - 26B A4B x Claude Opus 4.6:综合最均衡,逻辑最强,速度最快,适合作为默认主力模型。
- Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2:代码和数学能力极强,稳定性优秀,但速度最慢。
- Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled:代码能力强,但逻辑短板明显,更适合作为偏代码专用模型。
如果从实际落地角度只选一个模型,优先推荐 Gemma 4 - 26B A4B x Claude Opus 4.6;如果是代码优先场景,则 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 也非常有竞争力。
令我没想到的是Qwen3-Coder-Next这么拉跨,跟Qwen3.5-27B实力相当,难道是因为稀疏模型的原因吗,除了测评结果,本人更倾向于使用Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2
网友解答:--【壹】--:
26B为MoE模型实际上就3B左右吧 12G的显卡我感觉也能跑
--【贰】--:
很厉害的干货分享,感谢佬友分享。
想买mac本地部署的冲动又大了几分
--【叁】--:
这个有什么关系吗,我也是第一次跑,不过还行能跑动
--【肆】--:
太棒了,这俩模型,我也都部署了,但是没做太详细的测评,个人使用下来觉得 Gemma 4 可能要更聪明点,综合能力要更好,可能吃的是google的资料
--【伍】--:
测试的都是 Claude Opus 4.6 微调版本啊,有没有原生版本的测试
4090 能跑动 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled Q4_K_M
--【陆】--:
我主要侧重于写代码能力,我想微调版基于原生,应该相差结果并不大
--【柒】--:
哦,没什么,就是对比时还是尽量控制变量,不然得出qwen3.5拿时间换智力的逻辑的程度就不太对了(统一用混合专家模型比较,qwen3.5应该不至于上一分钟,80秒让人看起来太夸张了,毕竟你gamma都没有用稠密)
--【捌】--:
反而Qwen3.5-27B比较耗时,因为是稠密模型的缘故吧,不过内存占用是真的低,35G左右
--【玖】--:
嗯,我只要是侧重于实战,没太在乎哪个模型是什么类别,综合来说Qwen3.5 27B是一个不错的选择,分析代码的逻辑链我比较喜欢
--【拾】--:
最大的影响会导致延迟严重
80B 的模型,Opus 数据集对它能力的改变几乎没有,主要是回复风格的改变
--【拾壹】--:
才发现里面夹了个Qwen3.5的27B模型,稠密模型和其他两个比速度,有点意义不明了吧,不过其他的佬测的都挺好的,就是其中和速度有关的几句评价可以的话还是不要太强调吧,让人误会,我一开始都默认你用的是qwen3.5的混合专家模型了
--【拾贰】--:
说的有道理,我比较看重质量,所以等一下没什么,毕竟如果接入网络大模型也还有中转,代理的耗时,也不快,最重要的能跑的动且能输出满意的结果
--【拾叁】--: Grogu:
Gemma4-31B
Gemma4-31B也跑了,不过有点跑不动,后面就删了,我选择的最适合我的这几个测试了一下,不是专业测评,见笑了
--【拾肆】--:
稠密模型 + token的回复速度更快 + 综合表现,我觉得更舒服吧,但是qwen3.5-27-opus rd 也是小钢炮,就是慢了点,两个差不多是不相上下,写代码更强
--【拾伍】--: 泗水亭长,post:5, topic:1928391:
Gemma 4
Gemma 4 这么强吗,可惜我显卡太垃圾了
--【拾陆】--:
对,稠密模型会更耗资源一些
三个模型,不同代,不同架构,参数体量差别又很大
Qwen3.5-27B 可以换成 Qwen3.5-35-A3B 试试
或者
Gemma4-26B-A4B 换成 Gemma4-31B,Qwen3-Coder-Next 弃掉
或者比较
Qwen3.5-27B,Gemma4-31B,Qwen3.5-35-A3B,Gemma4-26B-A4B
这四个
--【拾柒】--:
赞同,稠密模型更稳,速度是慢一点,但是分析逻辑清晰,试了几个本地代码的解析,效果不错,我接入claude code 也是无感的,还不错,就是测试一些极端的思考题就不太行
--【拾捌】--:
佬友跑的是 Qwen3-Coder-Next Q4_K_M,内存卸载了吧
--【拾玖】--:
在充满token焦虑的时代,处理一些不是特别复杂的任务,或是数据敏感的任务,是一个不错的选择,下一步想让龙虾接入试试,等有时间研究下

