一个意想不到的本地代码模型的测试结果

2026-04-11 10:191阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

三个模型评测测试报告

1). 测试概述

本次测试针对以下三个模型进行了统一条件下的对比评测:

  • Gemma 4 - 26B A4B x Claude Opus 4.6 [[TeichAI/Gemma 4 - 26B A4B x Claude Opus 4.6-Distill · Hugging Face](https://huggingface.co/TeichAI/Gemma 4 - 26B A4B x Claude Opus 4.6-Distill)]
  • Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 [Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 · Hugging Face]
  • Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled [samuelcardillo/Qwen3-Coder-Next-Opus-4.6-Reasoning-Distilled-GGUF · Hugging Face]

我下载的都是Q4_K_M量化版

2).电脑硬件参数

硬件类型 型号/规格
显卡 NVIDIA GeForce RTX 4090
内存 64GB DDR5
CPU Intel Core i9-13900K

21920×1026 320 KB
32919×2055 333 KB
43831×2076 458 KB

测试目标是从逻辑推理能力、代码生成能力、响应速度、运行稳定性四个维度,评估三个模型在实际使用场景中的综合表现。

2. 测试方法与统一设置

为保证横向比较公平,本次评测使用了完全一致的测试方式和参数设置。

2.1 统一参数

  • temperature:0.0
  • top_p:1.0
  • 每题采样次数:1
  • 不使用 LLM 裁判
  • 逻辑题采用 exact match 评分
  • 代码题采用程序执行与测试通过率评分

2.2 测试集规模

  • GSM8K:20 题
  • BBH:20 题
  • HumanEval+:10 题
  • MBPP+:10 题

2.3 评分公式

  • 逻辑分 = (GSM8K + BBH) / 2
  • 代码分 = (HumanEval+ + MBPP+) / 2
  • 总分 = (逻辑分 + 代码分) / 2

3. 总体结果汇总

排名 模型 逻辑分 代码分 总分 平均时延 执行失败率
1 Gemma 4 - 26B A4B x Claude Opus 4.6 0.7750 0.9500 0.8625 18.49s 0.05
1 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 0.7250 1.0000 0.8625 81.08s 0.00
3 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 0.6000 1.0000 0.8000 58.25s 0.00

4. 单模型详细测试结果

4.1 Gemma 4 - 26B A4B x Claude Opus 4.6

4.1.1 分项成绩

测试项 正确 / 通过情况 得分 平均时延 执行失败率
GSM8K 18 / 20 0.90 18.38s -
BBH 13 / 20 0.65 20.64s -
HumanEval+ 9 / 10 0.90 18.73s 0.10
MBPP+ 10 / 10 1.00 16.20s 0.00

4.1.2 表现分析

  • 在三者中,综合逻辑能力最强,尤其 BBH 成绩明显领先另外两款模型。
  • GSM8K 达到 0.90,说明在基础数学与逐步推理问题上表现稳定。
  • 代码能力整体很强,MBPP+ 满分,HumanEval+ 仅丢失 1 题,说明其在常规编程任务和函数级实现上具备较高可用性。
  • 平均时延仅 18.49 秒,明显快于另外两款模型,响应效率优势非常突出。
  • 唯一明显短板是存在一定执行失败率,总体失败率为 0.05,且 HumanEval+ 单项失败率达到 0.10,说明在极少数代码生成场景下稳定性略弱于两款 Qwen 模型。

4.1.3 结论

Gemma 4 - 26B A4B x Claude Opus 4.6 是本次测试中最均衡且响应最快的模型。若使用场景同时重视逻辑理解、代码能力与交互效率,它是综合意义上的首选。


4.2 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

4.2.1 分项成绩

测试项 正确 / 通过情况 得分 平均时延 执行失败率
GSM8K 20 / 20 1.00 100.19s -
BBH 9 / 20 0.45 61.06s -
HumanEval+ 10 / 10 1.00 93.66s 0.00
MBPP+ 10 / 10 1.00 69.40s 0.00

4.2.2 表现分析

  • GSM8K 取得满分,说明该模型在数学计算、步骤式推导和确定性答案问题上表现极强。
  • 代码能力同样达到满分,HumanEval+ 与 MBPP+ 均为 1.00,体现出非常稳定的代码生成与测试通过能力。
  • 稳定性是其优势之一,所有代码测试项执行失败率均为 0,总失败率也为 0。
  • 主要短板集中在 BBH,只有 0.45,表明在更复杂、更偏综合抽象的逻辑题上不如 Gemma 4 - 26B A4B x Claude Opus 4.6。
  • 平均时延达到 81.08 秒,是三者中最慢的模型,速度代价非常明显。

4.2.3 结论

Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 是本次测试中代码能力最强、数学推理最强、稳定性最好的模型之一,但明显牺牲了响应速度。如果主要任务是代码生成、数学题求解或对稳定性要求较高,它非常适合;如果强调交互效率,则不占优。


4.3 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

4.3.1 分项成绩

测试项 正确 / 通过情况 得分 平均时延 执行失败率
GSM8K 18 / 20 0.90 26.57s -
BBH 6 / 20 0.30 33.21s -
HumanEval+ 10 / 10 1.00 129.31s 0.00
MBPP+ 10 / 10 1.00 43.93s 0.00

4.3.2 表现分析

  • 代码能力达到满分,说明该模型在编程题生成方面表现很强,特别适合偏代码产出的任务。
  • GSM8K 得分 0.90,说明基础数学和常规推理并不差。
  • BBH 仅 0.30,是三者中最低,拉低了整体逻辑成绩,也说明其在更复杂的综合逻辑任务上存在明显短板。
  • 稳定性良好,执行失败率为 0,在代码执行层面比较可靠。
  • 速度方面整体快于 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2,但仍明显慢于 Gemma 4 - 26B A4B x Claude Opus 4.6;尤其 HumanEval+ 平均时延较高,说明在部分代码任务上响应成本较大。

4.3.3 结论

Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 更像是一个偏代码导向的模型。它在代码测试项上表现优秀,但逻辑能力,尤其是 BBH 这类更复杂的推理任务,明显弱于前两者。因此更适合作为纯代码场景下的备选,而不是综合型主力模型。

5. 横向对比分析

5.1 逻辑能力对比

模型 GSM8K BBH 逻辑分
Gemma 4 - 26B A4B x Claude Opus 4.6 0.90 0.65 0.775
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 1.00 0.45 0.725
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 0.90 0.30 0.600

分析:

  • Gemma 4 - 26B A4B x Claude Opus 4.6 在逻辑综合能力上排名第一。
  • Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 在 GSM8K 上达到满分,数学推理能力最突出,但 BBH 拖累明显。
  • Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 的主要问题也集中在 BBH,这使其逻辑总分显著落后。

5.2 代码能力对比

模型 HumanEval+ MBPP+ 代码分
Gemma 4 - 26B A4B x Claude Opus 4.6 0.90 1.00 0.950
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 1.00 1.00 1.000
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 1.00 1.00 1.000

分析:

  • Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 与 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 在代码能力上并列第一。
  • Gemma 4 - 26B A4B x Claude Opus 4.6 仅在 HumanEval+ 少失 1 题,整体仍处于很高水平。
  • 如果只看代码项,两款 Qwen 模型略占优势。

5.3 速度对比

模型 平均时延
Gemma 4 - 26B A4B x Claude Opus 4.6 18.49s
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 58.25s
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 81.08s

分析:

  • Gemma 4 - 26B A4B x Claude Opus 4.6 速度优势非常明显。
  • Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 居中。
  • Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 最慢,实际使用中需要接受更高响应时延。

5.4 稳定性对比

模型 执行失败率
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 0.00
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 0.00
Gemma 4 - 26B A4B x Claude Opus 4.6 0.05

分析:

  • 两款 Qwen 模型在此次测试中没有出现执行失败,稳定性表现更好。
  • Gemma 4 - 26B A4B x Claude Opus 4.6 虽然存在少量失败,但不影响其整体第一梯队地位。

6. 关键结论

6.1 综合排名

  1. Gemma 4 - 26B A4B x Claude Opus 4.6(与 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 并列总分第一,但速度优势显著)
  2. Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2(与 Gemma 4 - 26B A4B x Claude Opus 4.6 并列总分第一,但速度明显偏慢)
  3. Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

6.2 场景化推荐

更重视综合能力与响应速度

推荐:Gemma 4 - 26B A4B x Claude Opus 4.6

原因:

  • 逻辑能力第一
  • 总分并列第一
  • 平均时延最低
  • 综合体验最好

更重视代码生成、数学能力与稳定性

推荐:Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

原因:

  • GSM8K 满分
  • 代码项满分
  • 执行失败率为 0
  • 更适合偏代码与偏数学任务

更重视纯代码用途,且能接受逻辑短板

推荐:Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

原因:

  • 代码项满分
  • 执行稳定
  • 适合作为偏代码任务模型
  • 但不适合作为综合能力主模型

7. 最终总结

本次测试显示,三个模型都具备较强的代码能力,但在“逻辑、速度、稳定性”的平衡上差异明显。

  • Gemma 4 - 26B A4B x Claude Opus 4.6:综合最均衡,逻辑最强,速度最快,适合作为默认主力模型。
  • Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2:代码和数学能力极强,稳定性优秀,但速度最慢。
  • Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled:代码能力强,但逻辑短板明显,更适合作为偏代码专用模型。

如果从实际落地角度只选一个模型,优先推荐 Gemma 4 - 26B A4B x Claude Opus 4.6;如果是代码优先场景,则 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 也非常有竞争力。

令我没想到的是Qwen3-Coder-Next这么拉跨,跟Qwen3.5-27B实力相当,难道是因为稀疏模型的原因吗,除了测评结果,本人更倾向于使用Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

网友解答:
--【壹】--:

26B为MoE模型实际上就3B左右吧 12G的显卡我感觉也能跑


--【贰】--:

很厉害的干货分享,感谢佬友分享。
想买mac本地部署的冲动又大了几分


--【叁】--:

这个有什么关系吗,我也是第一次跑,不过还行能跑动


--【肆】--:

太棒了,这俩模型,我也都部署了,但是没做太详细的测评,个人使用下来觉得 Gemma 4 可能要更聪明点,综合能力要更好,可能吃的是google的资料


--【伍】--:

测试的都是 Claude Opus 4.6 微调版本啊,有没有原生版本的测试

4090 能跑动 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled Q4_K_M


--【陆】--:

我主要侧重于写代码能力,我想微调版基于原生,应该相差结果并不大


--【柒】--:

哦,没什么,就是对比时还是尽量控制变量,不然得出qwen3.5拿时间换智力的逻辑的程度就不太对了(统一用混合专家模型比较,qwen3.5应该不至于上一分钟,80秒让人看起来太夸张了,毕竟你gamma都没有用稠密)


--【捌】--:

反而Qwen3.5-27B比较耗时,因为是稠密模型的缘故吧,不过内存占用是真的低,35G左右


--【玖】--:

嗯,我只要是侧重于实战,没太在乎哪个模型是什么类别,综合来说Qwen3.5 27B是一个不错的选择,分析代码的逻辑链我比较喜欢


--【拾】--:

最大的影响会导致延迟严重
80B 的模型,Opus 数据集对它能力的改变几乎没有,主要是回复风格的改变


--【拾壹】--:

才发现里面夹了个Qwen3.5的27B模型,稠密模型和其他两个比速度,有点意义不明了吧,不过其他的佬测的都挺好的,就是其中和速度有关的几句评价可以的话还是不要太强调吧,让人误会,我一开始都默认你用的是qwen3.5的混合专家模型了


--【拾贰】--:

说的有道理,我比较看重质量,所以等一下没什么,毕竟如果接入网络大模型也还有中转,代理的耗时,也不快,最重要的能跑的动且能输出满意的结果


--【拾叁】--: Grogu:

Gemma4-31B

Gemma4-31B也跑了,不过有点跑不动,后面就删了,我选择的最适合我的这几个测试了一下,不是专业测评,见笑了


--【拾肆】--:

稠密模型 + token的回复速度更快 + 综合表现,我觉得更舒服吧,但是qwen3.5-27-opus rd 也是小钢炮,就是慢了点,两个差不多是不相上下,写代码更强


--【拾伍】--: 泗水亭长,post:5, topic:1928391:

Gemma 4

Gemma 4 这么强吗,可惜我显卡太垃圾了


--【拾陆】--:

对,稠密模型会更耗资源一些

三个模型,不同代,不同架构,参数体量差别又很大

Qwen3.5-27B 可以换成 Qwen3.5-35-A3B 试试

或者

Gemma4-26B-A4B 换成 Gemma4-31B,Qwen3-Coder-Next 弃掉

或者比较

Qwen3.5-27B,Gemma4-31B,Qwen3.5-35-A3B,Gemma4-26B-A4B

这四个


--【拾柒】--:

赞同,稠密模型更稳,速度是慢一点,但是分析逻辑清晰,试了几个本地代码的解析,效果不错,我接入claude code 也是无感的,还不错,就是测试一些极端的思考题就不太行


--【拾捌】--:

佬友跑的是 Qwen3-Coder-Next Q4_K_M,内存卸载了吧


--【拾玖】--:

在充满token焦虑的时代,处理一些不是特别复杂的任务,或是数据敏感的任务,是一个不错的选择,下一步想让龙虾接入试试,等有时间研究下

标签:人工智能
问题描述:

三个模型评测测试报告

1). 测试概述

本次测试针对以下三个模型进行了统一条件下的对比评测:

  • Gemma 4 - 26B A4B x Claude Opus 4.6 [[TeichAI/Gemma 4 - 26B A4B x Claude Opus 4.6-Distill · Hugging Face](https://huggingface.co/TeichAI/Gemma 4 - 26B A4B x Claude Opus 4.6-Distill)]
  • Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 [Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 · Hugging Face]
  • Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled [samuelcardillo/Qwen3-Coder-Next-Opus-4.6-Reasoning-Distilled-GGUF · Hugging Face]

我下载的都是Q4_K_M量化版

2).电脑硬件参数

硬件类型 型号/规格
显卡 NVIDIA GeForce RTX 4090
内存 64GB DDR5
CPU Intel Core i9-13900K

21920×1026 320 KB
32919×2055 333 KB
43831×2076 458 KB

测试目标是从逻辑推理能力、代码生成能力、响应速度、运行稳定性四个维度,评估三个模型在实际使用场景中的综合表现。

2. 测试方法与统一设置

为保证横向比较公平,本次评测使用了完全一致的测试方式和参数设置。

2.1 统一参数

  • temperature:0.0
  • top_p:1.0
  • 每题采样次数:1
  • 不使用 LLM 裁判
  • 逻辑题采用 exact match 评分
  • 代码题采用程序执行与测试通过率评分

2.2 测试集规模

  • GSM8K:20 题
  • BBH:20 题
  • HumanEval+:10 题
  • MBPP+:10 题

2.3 评分公式

  • 逻辑分 = (GSM8K + BBH) / 2
  • 代码分 = (HumanEval+ + MBPP+) / 2
  • 总分 = (逻辑分 + 代码分) / 2

3. 总体结果汇总

排名 模型 逻辑分 代码分 总分 平均时延 执行失败率
1 Gemma 4 - 26B A4B x Claude Opus 4.6 0.7750 0.9500 0.8625 18.49s 0.05
1 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 0.7250 1.0000 0.8625 81.08s 0.00
3 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 0.6000 1.0000 0.8000 58.25s 0.00

4. 单模型详细测试结果

4.1 Gemma 4 - 26B A4B x Claude Opus 4.6

4.1.1 分项成绩

测试项 正确 / 通过情况 得分 平均时延 执行失败率
GSM8K 18 / 20 0.90 18.38s -
BBH 13 / 20 0.65 20.64s -
HumanEval+ 9 / 10 0.90 18.73s 0.10
MBPP+ 10 / 10 1.00 16.20s 0.00

4.1.2 表现分析

  • 在三者中,综合逻辑能力最强,尤其 BBH 成绩明显领先另外两款模型。
  • GSM8K 达到 0.90,说明在基础数学与逐步推理问题上表现稳定。
  • 代码能力整体很强,MBPP+ 满分,HumanEval+ 仅丢失 1 题,说明其在常规编程任务和函数级实现上具备较高可用性。
  • 平均时延仅 18.49 秒,明显快于另外两款模型,响应效率优势非常突出。
  • 唯一明显短板是存在一定执行失败率,总体失败率为 0.05,且 HumanEval+ 单项失败率达到 0.10,说明在极少数代码生成场景下稳定性略弱于两款 Qwen 模型。

4.1.3 结论

Gemma 4 - 26B A4B x Claude Opus 4.6 是本次测试中最均衡且响应最快的模型。若使用场景同时重视逻辑理解、代码能力与交互效率,它是综合意义上的首选。


4.2 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

4.2.1 分项成绩

测试项 正确 / 通过情况 得分 平均时延 执行失败率
GSM8K 20 / 20 1.00 100.19s -
BBH 9 / 20 0.45 61.06s -
HumanEval+ 10 / 10 1.00 93.66s 0.00
MBPP+ 10 / 10 1.00 69.40s 0.00

4.2.2 表现分析

  • GSM8K 取得满分,说明该模型在数学计算、步骤式推导和确定性答案问题上表现极强。
  • 代码能力同样达到满分,HumanEval+ 与 MBPP+ 均为 1.00,体现出非常稳定的代码生成与测试通过能力。
  • 稳定性是其优势之一,所有代码测试项执行失败率均为 0,总失败率也为 0。
  • 主要短板集中在 BBH,只有 0.45,表明在更复杂、更偏综合抽象的逻辑题上不如 Gemma 4 - 26B A4B x Claude Opus 4.6。
  • 平均时延达到 81.08 秒,是三者中最慢的模型,速度代价非常明显。

4.2.3 结论

Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 是本次测试中代码能力最强、数学推理最强、稳定性最好的模型之一,但明显牺牲了响应速度。如果主要任务是代码生成、数学题求解或对稳定性要求较高,它非常适合;如果强调交互效率,则不占优。


4.3 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

4.3.1 分项成绩

测试项 正确 / 通过情况 得分 平均时延 执行失败率
GSM8K 18 / 20 0.90 26.57s -
BBH 6 / 20 0.30 33.21s -
HumanEval+ 10 / 10 1.00 129.31s 0.00
MBPP+ 10 / 10 1.00 43.93s 0.00

4.3.2 表现分析

  • 代码能力达到满分,说明该模型在编程题生成方面表现很强,特别适合偏代码产出的任务。
  • GSM8K 得分 0.90,说明基础数学和常规推理并不差。
  • BBH 仅 0.30,是三者中最低,拉低了整体逻辑成绩,也说明其在更复杂的综合逻辑任务上存在明显短板。
  • 稳定性良好,执行失败率为 0,在代码执行层面比较可靠。
  • 速度方面整体快于 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2,但仍明显慢于 Gemma 4 - 26B A4B x Claude Opus 4.6;尤其 HumanEval+ 平均时延较高,说明在部分代码任务上响应成本较大。

4.3.3 结论

Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 更像是一个偏代码导向的模型。它在代码测试项上表现优秀,但逻辑能力,尤其是 BBH 这类更复杂的推理任务,明显弱于前两者。因此更适合作为纯代码场景下的备选,而不是综合型主力模型。

5. 横向对比分析

5.1 逻辑能力对比

模型 GSM8K BBH 逻辑分
Gemma 4 - 26B A4B x Claude Opus 4.6 0.90 0.65 0.775
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 1.00 0.45 0.725
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 0.90 0.30 0.600

分析:

  • Gemma 4 - 26B A4B x Claude Opus 4.6 在逻辑综合能力上排名第一。
  • Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 在 GSM8K 上达到满分,数学推理能力最突出,但 BBH 拖累明显。
  • Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 的主要问题也集中在 BBH,这使其逻辑总分显著落后。

5.2 代码能力对比

模型 HumanEval+ MBPP+ 代码分
Gemma 4 - 26B A4B x Claude Opus 4.6 0.90 1.00 0.950
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 1.00 1.00 1.000
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 1.00 1.00 1.000

分析:

  • Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 与 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 在代码能力上并列第一。
  • Gemma 4 - 26B A4B x Claude Opus 4.6 仅在 HumanEval+ 少失 1 题,整体仍处于很高水平。
  • 如果只看代码项,两款 Qwen 模型略占优势。

5.3 速度对比

模型 平均时延
Gemma 4 - 26B A4B x Claude Opus 4.6 18.49s
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 58.25s
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 81.08s

分析:

  • Gemma 4 - 26B A4B x Claude Opus 4.6 速度优势非常明显。
  • Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 居中。
  • Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 最慢,实际使用中需要接受更高响应时延。

5.4 稳定性对比

模型 执行失败率
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 0.00
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 0.00
Gemma 4 - 26B A4B x Claude Opus 4.6 0.05

分析:

  • 两款 Qwen 模型在此次测试中没有出现执行失败,稳定性表现更好。
  • Gemma 4 - 26B A4B x Claude Opus 4.6 虽然存在少量失败,但不影响其整体第一梯队地位。

6. 关键结论

6.1 综合排名

  1. Gemma 4 - 26B A4B x Claude Opus 4.6(与 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 并列总分第一,但速度优势显著)
  2. Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2(与 Gemma 4 - 26B A4B x Claude Opus 4.6 并列总分第一,但速度明显偏慢)
  3. Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

6.2 场景化推荐

更重视综合能力与响应速度

推荐:Gemma 4 - 26B A4B x Claude Opus 4.6

原因:

  • 逻辑能力第一
  • 总分并列第一
  • 平均时延最低
  • 综合体验最好

更重视代码生成、数学能力与稳定性

推荐:Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

原因:

  • GSM8K 满分
  • 代码项满分
  • 执行失败率为 0
  • 更适合偏代码与偏数学任务

更重视纯代码用途,且能接受逻辑短板

推荐:Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

原因:

  • 代码项满分
  • 执行稳定
  • 适合作为偏代码任务模型
  • 但不适合作为综合能力主模型

7. 最终总结

本次测试显示,三个模型都具备较强的代码能力,但在“逻辑、速度、稳定性”的平衡上差异明显。

  • Gemma 4 - 26B A4B x Claude Opus 4.6:综合最均衡,逻辑最强,速度最快,适合作为默认主力模型。
  • Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2:代码和数学能力极强,稳定性优秀,但速度最慢。
  • Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled:代码能力强,但逻辑短板明显,更适合作为偏代码专用模型。

如果从实际落地角度只选一个模型,优先推荐 Gemma 4 - 26B A4B x Claude Opus 4.6;如果是代码优先场景,则 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 也非常有竞争力。

令我没想到的是Qwen3-Coder-Next这么拉跨,跟Qwen3.5-27B实力相当,难道是因为稀疏模型的原因吗,除了测评结果,本人更倾向于使用Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

网友解答:
--【壹】--:

26B为MoE模型实际上就3B左右吧 12G的显卡我感觉也能跑


--【贰】--:

很厉害的干货分享,感谢佬友分享。
想买mac本地部署的冲动又大了几分


--【叁】--:

这个有什么关系吗,我也是第一次跑,不过还行能跑动


--【肆】--:

太棒了,这俩模型,我也都部署了,但是没做太详细的测评,个人使用下来觉得 Gemma 4 可能要更聪明点,综合能力要更好,可能吃的是google的资料


--【伍】--:

测试的都是 Claude Opus 4.6 微调版本啊,有没有原生版本的测试

4090 能跑动 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled Q4_K_M


--【陆】--:

我主要侧重于写代码能力,我想微调版基于原生,应该相差结果并不大


--【柒】--:

哦,没什么,就是对比时还是尽量控制变量,不然得出qwen3.5拿时间换智力的逻辑的程度就不太对了(统一用混合专家模型比较,qwen3.5应该不至于上一分钟,80秒让人看起来太夸张了,毕竟你gamma都没有用稠密)


--【捌】--:

反而Qwen3.5-27B比较耗时,因为是稠密模型的缘故吧,不过内存占用是真的低,35G左右


--【玖】--:

嗯,我只要是侧重于实战,没太在乎哪个模型是什么类别,综合来说Qwen3.5 27B是一个不错的选择,分析代码的逻辑链我比较喜欢


--【拾】--:

最大的影响会导致延迟严重
80B 的模型,Opus 数据集对它能力的改变几乎没有,主要是回复风格的改变


--【拾壹】--:

才发现里面夹了个Qwen3.5的27B模型,稠密模型和其他两个比速度,有点意义不明了吧,不过其他的佬测的都挺好的,就是其中和速度有关的几句评价可以的话还是不要太强调吧,让人误会,我一开始都默认你用的是qwen3.5的混合专家模型了


--【拾贰】--:

说的有道理,我比较看重质量,所以等一下没什么,毕竟如果接入网络大模型也还有中转,代理的耗时,也不快,最重要的能跑的动且能输出满意的结果


--【拾叁】--: Grogu:

Gemma4-31B

Gemma4-31B也跑了,不过有点跑不动,后面就删了,我选择的最适合我的这几个测试了一下,不是专业测评,见笑了


--【拾肆】--:

稠密模型 + token的回复速度更快 + 综合表现,我觉得更舒服吧,但是qwen3.5-27-opus rd 也是小钢炮,就是慢了点,两个差不多是不相上下,写代码更强


--【拾伍】--: 泗水亭长,post:5, topic:1928391:

Gemma 4

Gemma 4 这么强吗,可惜我显卡太垃圾了


--【拾陆】--:

对,稠密模型会更耗资源一些

三个模型,不同代,不同架构,参数体量差别又很大

Qwen3.5-27B 可以换成 Qwen3.5-35-A3B 试试

或者

Gemma4-26B-A4B 换成 Gemma4-31B,Qwen3-Coder-Next 弃掉

或者比较

Qwen3.5-27B,Gemma4-31B,Qwen3.5-35-A3B,Gemma4-26B-A4B

这四个


--【拾柒】--:

赞同,稠密模型更稳,速度是慢一点,但是分析逻辑清晰,试了几个本地代码的解析,效果不错,我接入claude code 也是无感的,还不错,就是测试一些极端的思考题就不太行


--【拾捌】--:

佬友跑的是 Qwen3-Coder-Next Q4_K_M,内存卸载了吧


--【拾玖】--:

在充满token焦虑的时代,处理一些不是特别复杂的任务,或是数据敏感的任务,是一个不错的选择,下一步想让龙虾接入试试,等有时间研究下

标签:人工智能