一个意想不到的本地代码模型的测试结果

2026-04-11 10:191阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

三个模型评测测试报告

1). 测试概述

本次测试针对以下三个模型进行了统一条件下的对比评测：

Gemma 4 - 26B A4B x Claude Opus 4.6 [[TeichAI/Gemma 4 - 26B A4B x Claude Opus 4.6-Distill · Hugging Face](https://huggingface.co/TeichAI/Gemma 4 - 26B A4B x Claude Opus 4.6-Distill)]
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 [Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 · Hugging Face]
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled [samuelcardillo/Qwen3-Coder-Next-Opus-4.6-Reasoning-Distilled-GGUF · Hugging Face]

我下载的都是Q4_K_M量化版

2).电脑硬件参数

硬件类型	型号/规格
显卡	NVIDIA GeForce RTX 4090
内存	64GB DDR5
CPU	Intel Core i9-13900K

21920×1026 320 KB
32919×2055 333 KB
43831×2076 458 KB

测试目标是从逻辑推理能力、代码生成能力、响应速度、运行稳定性四个维度，评估三个模型在实际使用场景中的综合表现。

2. 测试方法与统一设置

为保证横向比较公平，本次评测使用了完全一致的测试方式和参数设置。

2.1 统一参数

temperature：0.0
top_p：1.0
每题采样次数：1
不使用 LLM 裁判
逻辑题采用 exact match 评分
代码题采用程序执行与测试通过率评分

2.2 测试集规模

GSM8K：20 题
BBH：20 题
HumanEval+：10 题
MBPP+：10 题

2.3 评分公式

逻辑分 = (GSM8K + BBH) / 2
代码分 = (HumanEval+ + MBPP+) / 2
总分 = (逻辑分 + 代码分) / 2

3. 总体结果汇总

排名	模型	逻辑分	代码分	总分	平均时延	执行失败率
1	Gemma 4 - 26B A4B x Claude Opus 4.6	0.7750	0.9500	0.8625	18.49s	0.05
1	Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2	0.7250	1.0000	0.8625	81.08s	0.00
3	Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled	0.6000	1.0000	0.8000	58.25s	0.00

4. 单模型详细测试结果

4.1 Gemma 4 - 26B A4B x Claude Opus 4.6

4.1.1 分项成绩

测试项	正确 / 通过情况	得分	平均时延	执行失败率
GSM8K	18 / 20	0.90	18.38s	-
BBH	13 / 20	0.65	20.64s	-
HumanEval+	9 / 10	0.90	18.73s	0.10
MBPP+	10 / 10	1.00	16.20s	0.00

4.1.2 表现分析

在三者中，综合逻辑能力最强，尤其 BBH 成绩明显领先另外两款模型。
GSM8K 达到 0.90，说明在基础数学与逐步推理问题上表现稳定。
代码能力整体很强，MBPP+ 满分，HumanEval+ 仅丢失 1 题，说明其在常规编程任务和函数级实现上具备较高可用性。
平均时延仅 18.49 秒，明显快于另外两款模型，响应效率优势非常突出。
唯一明显短板是存在一定执行失败率，总体失败率为 0.05，且 HumanEval+ 单项失败率达到 0.10，说明在极少数代码生成场景下稳定性略弱于两款 Qwen 模型。

4.1.3 结论

Gemma 4 - 26B A4B x Claude Opus 4.6 是本次测试中最均衡且响应最快的模型。若使用场景同时重视逻辑理解、代码能力与交互效率，它是综合意义上的首选。

4.2 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

4.2.1 分项成绩

测试项	正确 / 通过情况	得分	平均时延	执行失败率
GSM8K	20 / 20	1.00	100.19s	-
BBH	9 / 20	0.45	61.06s	-
HumanEval+	10 / 10	1.00	93.66s	0.00
MBPP+	10 / 10	1.00	69.40s	0.00

4.2.2 表现分析

GSM8K 取得满分，说明该模型在数学计算、步骤式推导和确定性答案问题上表现极强。
代码能力同样达到满分，HumanEval+ 与 MBPP+ 均为 1.00，体现出非常稳定的代码生成与测试通过能力。
稳定性是其优势之一，所有代码测试项执行失败率均为 0，总失败率也为 0。
主要短板集中在 BBH，只有 0.45，表明在更复杂、更偏综合抽象的逻辑题上不如 Gemma 4 - 26B A4B x Claude Opus 4.6。
平均时延达到 81.08 秒，是三者中最慢的模型，速度代价非常明显。

4.2.3 结论

Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 是本次测试中代码能力最强、数学推理最强、稳定性最好的模型之一，但明显牺牲了响应速度。如果主要任务是代码生成、数学题求解或对稳定性要求较高，它非常适合；如果强调交互效率，则不占优。

4.3 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

4.3.1 分项成绩

测试项	正确 / 通过情况	得分	平均时延	执行失败率
GSM8K	18 / 20	0.90	26.57s	-
BBH	6 / 20	0.30	33.21s	-
HumanEval+	10 / 10	1.00	129.31s	0.00
MBPP+	10 / 10	1.00	43.93s	0.00

4.3.2 表现分析

代码能力达到满分，说明该模型在编程题生成方面表现很强，特别适合偏代码产出的任务。
GSM8K 得分 0.90，说明基础数学和常规推理并不差。
BBH 仅 0.30，是三者中最低，拉低了整体逻辑成绩，也说明其在更复杂的综合逻辑任务上存在明显短板。
稳定性良好，执行失败率为 0，在代码执行层面比较可靠。
速度方面整体快于 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2，但仍明显慢于 Gemma 4 - 26B A4B x Claude Opus 4.6；尤其 HumanEval+ 平均时延较高，说明在部分代码任务上响应成本较大。

4.3.3 结论

Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 更像是一个偏代码导向的模型。它在代码测试项上表现优秀，但逻辑能力，尤其是 BBH 这类更复杂的推理任务，明显弱于前两者。因此更适合作为纯代码场景下的备选，而不是综合型主力模型。

5. 横向对比分析

5.1 逻辑能力对比

模型	GSM8K	BBH	逻辑分
Gemma 4 - 26B A4B x Claude Opus 4.6	0.90	0.65	0.775
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2	1.00	0.45	0.725
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled	0.90	0.30	0.600

分析：

Gemma 4 - 26B A4B x Claude Opus 4.6 在逻辑综合能力上排名第一。
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 在 GSM8K 上达到满分，数学推理能力最突出，但 BBH 拖累明显。
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 的主要问题也集中在 BBH，这使其逻辑总分显著落后。

5.2 代码能力对比

模型	HumanEval+	MBPP+	代码分
Gemma 4 - 26B A4B x Claude Opus 4.6	0.90	1.00	0.950
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2	1.00	1.00	1.000
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled	1.00	1.00	1.000

分析：

Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 与 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 在代码能力上并列第一。
Gemma 4 - 26B A4B x Claude Opus 4.6 仅在 HumanEval+ 少失 1 题，整体仍处于很高水平。
如果只看代码项，两款 Qwen 模型略占优势。

5.3 速度对比

模型	平均时延
Gemma 4 - 26B A4B x Claude Opus 4.6	18.49s
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled	58.25s
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2	81.08s

分析：

Gemma 4 - 26B A4B x Claude Opus 4.6 速度优势非常明显。
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 居中。
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 最慢，实际使用中需要接受更高响应时延。

5.4 稳定性对比

模型	执行失败率
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2	0.00
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled	0.00
Gemma 4 - 26B A4B x Claude Opus 4.6	0.05

分析：

两款 Qwen 模型在此次测试中没有出现执行失败，稳定性表现更好。
Gemma 4 - 26B A4B x Claude Opus 4.6 虽然存在少量失败，但不影响其整体第一梯队地位。

6. 关键结论

6.1 综合排名

Gemma 4 - 26B A4B x Claude Opus 4.6（与 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 并列总分第一，但速度优势显著）
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2（与 Gemma 4 - 26B A4B x Claude Opus 4.6 并列总分第一，但速度明显偏慢）
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

6.2 场景化推荐

更重视综合能力与响应速度

推荐：Gemma 4 - 26B A4B x Claude Opus 4.6

原因：

逻辑能力第一
总分并列第一
平均时延最低
综合体验最好

更重视代码生成、数学能力与稳定性

推荐：Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

原因：

GSM8K 满分
代码项满分
执行失败率为 0
更适合偏代码与偏数学任务

更重视纯代码用途，且能接受逻辑短板

推荐：Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

原因：

代码项满分
执行稳定
适合作为偏代码任务模型
但不适合作为综合能力主模型

7. 最终总结

本次测试显示，三个模型都具备较强的代码能力，但在“逻辑、速度、稳定性”的平衡上差异明显。

Gemma 4 - 26B A4B x Claude Opus 4.6：综合最均衡，逻辑最强，速度最快，适合作为默认主力模型。
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2：代码和数学能力极强，稳定性优秀，但速度最慢。
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled：代码能力强，但逻辑短板明显，更适合作为偏代码专用模型。

如果从实际落地角度只选一个模型，优先推荐 Gemma 4 - 26B A4B x Claude Opus 4.6；如果是代码优先场景，则 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 也非常有竞争力。

令我没想到的是Qwen3-Coder-Next这么拉跨,跟Qwen3.5-27B实力相当,难道是因为稀疏模型的原因吗,除了测评结果,本人更倾向于使用Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

网友解答：

--【壹】--：

26B为MoE模型实际上就3B左右吧 12G的显卡我感觉也能跑

--【贰】--：

很厉害的干货分享，感谢佬友分享。
想买mac本地部署的冲动又大了几分

--【叁】--：

这个有什么关系吗,我也是第一次跑,不过还行能跑动

--【肆】--：

太棒了，这俩模型，我也都部署了，但是没做太详细的测评，个人使用下来觉得 Gemma 4 可能要更聪明点，综合能力要更好，可能吃的是google的资料

--【伍】--：

测试的都是 Claude Opus 4.6 微调版本啊，有没有原生版本的测试

4090 能跑动 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled Q4_K_M

--【陆】--：

我主要侧重于写代码能力,我想微调版基于原生,应该相差结果并不大

--【柒】--：

哦，没什么，就是对比时还是尽量控制变量，不然得出qwen3.5拿时间换智力的逻辑的程度就不太对了（统一用混合专家模型比较，qwen3.5应该不至于上一分钟，80秒让人看起来太夸张了，毕竟你gamma都没有用稠密）

--【捌】--：

反而Qwen3.5-27B比较耗时,因为是稠密模型的缘故吧,不过内存占用是真的低,35G左右

--【玖】--：

嗯,我只要是侧重于实战,没太在乎哪个模型是什么类别,综合来说Qwen3.5 27B是一个不错的选择,分析代码的逻辑链我比较喜欢

--【拾】--：

最大的影响会导致延迟严重
80B 的模型，Opus 数据集对它能力的改变几乎没有，主要是回复风格的改变

--【拾壹】--：

才发现里面夹了个Qwen3.5的27B模型，稠密模型和其他两个比速度，有点意义不明了吧，不过其他的佬测的都挺好的，就是其中和速度有关的几句评价可以的话还是不要太强调吧，让人误会，我一开始都默认你用的是qwen3.5的混合专家模型了

--【拾贰】--：

说的有道理,我比较看重质量,所以等一下没什么,毕竟如果接入网络大模型也还有中转,代理的耗时,也不快,最重要的能跑的动且能输出满意的结果

--【拾叁】--： Grogu:

Gemma4-31B

Gemma4-31B也跑了,不过有点跑不动,后面就删了,我选择的最适合我的这几个测试了一下,不是专业测评,见笑了

--【拾肆】--：

稠密模型 + token的回复速度更快 + 综合表现，我觉得更舒服吧，但是qwen3.5-27-opus rd 也是小钢炮，就是慢了点，两个差不多是不相上下，写代码更强

--【拾伍】--： 泗水亭长，post:5, topic:1928391:

Gemma 4

Gemma 4 这么强吗，可惜我显卡太垃圾了

--【拾陆】--：

对，稠密模型会更耗资源一些

三个模型，不同代，不同架构，参数体量差别又很大

Qwen3.5-27B 可以换成 Qwen3.5-35-A3B 试试

或者

Gemma4-26B-A4B 换成 Gemma4-31B，Qwen3-Coder-Next 弃掉

或者比较

Qwen3.5-27B，Gemma4-31B，Qwen3.5-35-A3B，Gemma4-26B-A4B

这四个

--【拾柒】--：

赞同,稠密模型更稳,速度是慢一点,但是分析逻辑清晰,试了几个本地代码的解析,效果不错,我接入claude code 也是无感的,还不错,就是测试一些极端的思考题就不太行

--【拾捌】--：

佬友跑的是 Qwen3-Coder-Next Q4_K_M，内存卸载了吧

--【拾玖】--：

在充满token焦虑的时代,处理一些不是特别复杂的任务,或是数据敏感的任务,是一个不错的选择,下一步想让龙虾接入试试,等有时间研究下

标签：人工智能

问题描述：

三个模型评测测试报告

1). 测试概述

本次测试针对以下三个模型进行了统一条件下的对比评测：

Gemma 4 - 26B A4B x Claude Opus 4.6 [[TeichAI/Gemma 4 - 26B A4B x Claude Opus 4.6-Distill · Hugging Face](https://huggingface.co/TeichAI/Gemma 4 - 26B A4B x Claude Opus 4.6-Distill)]
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 [Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 · Hugging Face]
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled [samuelcardillo/Qwen3-Coder-Next-Opus-4.6-Reasoning-Distilled-GGUF · Hugging Face]

我下载的都是Q4_K_M量化版

2).电脑硬件参数

硬件类型	型号/规格
显卡	NVIDIA GeForce RTX 4090
内存	64GB DDR5
CPU	Intel Core i9-13900K

21920×1026 320 KB
32919×2055 333 KB
43831×2076 458 KB

测试目标是从逻辑推理能力、代码生成能力、响应速度、运行稳定性四个维度，评估三个模型在实际使用场景中的综合表现。

2. 测试方法与统一设置

为保证横向比较公平，本次评测使用了完全一致的测试方式和参数设置。

2.1 统一参数

temperature：0.0
top_p：1.0
每题采样次数：1
不使用 LLM 裁判
逻辑题采用 exact match 评分
代码题采用程序执行与测试通过率评分

2.2 测试集规模

GSM8K：20 题
BBH：20 题
HumanEval+：10 题
MBPP+：10 题

2.3 评分公式

逻辑分 = (GSM8K + BBH) / 2
代码分 = (HumanEval+ + MBPP+) / 2
总分 = (逻辑分 + 代码分) / 2

3. 总体结果汇总

排名	模型	逻辑分	代码分	总分	平均时延	执行失败率
1	Gemma 4 - 26B A4B x Claude Opus 4.6	0.7750	0.9500	0.8625	18.49s	0.05
1	Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2	0.7250	1.0000	0.8625	81.08s	0.00
3	Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled	0.6000	1.0000	0.8000	58.25s	0.00

4. 单模型详细测试结果

4.1 Gemma 4 - 26B A4B x Claude Opus 4.6

4.1.1 分项成绩

测试项	正确 / 通过情况	得分	平均时延	执行失败率
GSM8K	18 / 20	0.90	18.38s	-
BBH	13 / 20	0.65	20.64s	-
HumanEval+	9 / 10	0.90	18.73s	0.10
MBPP+	10 / 10	1.00	16.20s	0.00

4.1.2 表现分析

在三者中，综合逻辑能力最强，尤其 BBH 成绩明显领先另外两款模型。
GSM8K 达到 0.90，说明在基础数学与逐步推理问题上表现稳定。
代码能力整体很强，MBPP+ 满分，HumanEval+ 仅丢失 1 题，说明其在常规编程任务和函数级实现上具备较高可用性。
平均时延仅 18.49 秒，明显快于另外两款模型，响应效率优势非常突出。
唯一明显短板是存在一定执行失败率，总体失败率为 0.05，且 HumanEval+ 单项失败率达到 0.10，说明在极少数代码生成场景下稳定性略弱于两款 Qwen 模型。

4.1.3 结论

Gemma 4 - 26B A4B x Claude Opus 4.6 是本次测试中最均衡且响应最快的模型。若使用场景同时重视逻辑理解、代码能力与交互效率，它是综合意义上的首选。

4.2 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

4.2.1 分项成绩

测试项	正确 / 通过情况	得分	平均时延	执行失败率
GSM8K	20 / 20	1.00	100.19s	-
BBH	9 / 20	0.45	61.06s	-
HumanEval+	10 / 10	1.00	93.66s	0.00
MBPP+	10 / 10	1.00	69.40s	0.00

4.2.2 表现分析

GSM8K 取得满分，说明该模型在数学计算、步骤式推导和确定性答案问题上表现极强。
代码能力同样达到满分，HumanEval+ 与 MBPP+ 均为 1.00，体现出非常稳定的代码生成与测试通过能力。
稳定性是其优势之一，所有代码测试项执行失败率均为 0，总失败率也为 0。
主要短板集中在 BBH，只有 0.45，表明在更复杂、更偏综合抽象的逻辑题上不如 Gemma 4 - 26B A4B x Claude Opus 4.6。
平均时延达到 81.08 秒，是三者中最慢的模型，速度代价非常明显。

4.2.3 结论

4.3 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

4.3.1 分项成绩

测试项	正确 / 通过情况	得分	平均时延	执行失败率
GSM8K	18 / 20	0.90	26.57s	-
BBH	6 / 20	0.30	33.21s	-
HumanEval+	10 / 10	1.00	129.31s	0.00
MBPP+	10 / 10	1.00	43.93s	0.00

4.3.2 表现分析

代码能力达到满分，说明该模型在编程题生成方面表现很强，特别适合偏代码产出的任务。
GSM8K 得分 0.90，说明基础数学和常规推理并不差。
BBH 仅 0.30，是三者中最低，拉低了整体逻辑成绩，也说明其在更复杂的综合逻辑任务上存在明显短板。
稳定性良好，执行失败率为 0，在代码执行层面比较可靠。
速度方面整体快于 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2，但仍明显慢于 Gemma 4 - 26B A4B x Claude Opus 4.6；尤其 HumanEval+ 平均时延较高，说明在部分代码任务上响应成本较大。

4.3.3 结论

5. 横向对比分析

5.1 逻辑能力对比

模型	GSM8K	BBH	逻辑分
Gemma 4 - 26B A4B x Claude Opus 4.6	0.90	0.65	0.775
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2	1.00	0.45	0.725
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled	0.90	0.30	0.600

分析：

Gemma 4 - 26B A4B x Claude Opus 4.6 在逻辑综合能力上排名第一。
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 在 GSM8K 上达到满分，数学推理能力最突出，但 BBH 拖累明显。
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 的主要问题也集中在 BBH，这使其逻辑总分显著落后。

5.2 代码能力对比

模型	HumanEval+	MBPP+	代码分
Gemma 4 - 26B A4B x Claude Opus 4.6	0.90	1.00	0.950
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2	1.00	1.00	1.000
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled	1.00	1.00	1.000

分析：

Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 与 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 在代码能力上并列第一。
Gemma 4 - 26B A4B x Claude Opus 4.6 仅在 HumanEval+ 少失 1 题，整体仍处于很高水平。
如果只看代码项，两款 Qwen 模型略占优势。

5.3 速度对比

模型	平均时延
Gemma 4 - 26B A4B x Claude Opus 4.6	18.49s
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled	58.25s
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2	81.08s

分析：

Gemma 4 - 26B A4B x Claude Opus 4.6 速度优势非常明显。
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 居中。
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 最慢，实际使用中需要接受更高响应时延。

5.4 稳定性对比

模型	执行失败率
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2	0.00
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled	0.00
Gemma 4 - 26B A4B x Claude Opus 4.6	0.05

分析：

两款 Qwen 模型在此次测试中没有出现执行失败，稳定性表现更好。
Gemma 4 - 26B A4B x Claude Opus 4.6 虽然存在少量失败，但不影响其整体第一梯队地位。

6. 关键结论

6.1 综合排名

Gemma 4 - 26B A4B x Claude Opus 4.6（与 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 并列总分第一，但速度优势显著）
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2（与 Gemma 4 - 26B A4B x Claude Opus 4.6 并列总分第一，但速度明显偏慢）
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

6.2 场景化推荐

更重视综合能力与响应速度

推荐：Gemma 4 - 26B A4B x Claude Opus 4.6

原因：

逻辑能力第一
总分并列第一
平均时延最低
综合体验最好

更重视代码生成、数学能力与稳定性

推荐：Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

原因：

GSM8K 满分
代码项满分
执行失败率为 0
更适合偏代码与偏数学任务

更重视纯代码用途，且能接受逻辑短板

推荐：Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

原因：

代码项满分
执行稳定
适合作为偏代码任务模型
但不适合作为综合能力主模型

7. 最终总结

本次测试显示，三个模型都具备较强的代码能力，但在“逻辑、速度、稳定性”的平衡上差异明显。

Gemma 4 - 26B A4B x Claude Opus 4.6：综合最均衡，逻辑最强，速度最快，适合作为默认主力模型。
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2：代码和数学能力极强，稳定性优秀，但速度最慢。
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled：代码能力强，但逻辑短板明显，更适合作为偏代码专用模型。

网友解答：

--【壹】--：

26B为MoE模型实际上就3B左右吧 12G的显卡我感觉也能跑

--【贰】--：

很厉害的干货分享，感谢佬友分享。
想买mac本地部署的冲动又大了几分

--【叁】--：

这个有什么关系吗,我也是第一次跑,不过还行能跑动

--【肆】--：

太棒了，这俩模型，我也都部署了，但是没做太详细的测评，个人使用下来觉得 Gemma 4 可能要更聪明点，综合能力要更好，可能吃的是google的资料

--【伍】--：

测试的都是 Claude Opus 4.6 微调版本啊，有没有原生版本的测试

4090 能跑动 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled Q4_K_M

--【陆】--：

我主要侧重于写代码能力,我想微调版基于原生,应该相差结果并不大

--【柒】--：

--【捌】--：

反而Qwen3.5-27B比较耗时,因为是稠密模型的缘故吧,不过内存占用是真的低,35G左右

--【玖】--：

嗯,我只要是侧重于实战,没太在乎哪个模型是什么类别,综合来说Qwen3.5 27B是一个不错的选择,分析代码的逻辑链我比较喜欢

--【拾】--：

最大的影响会导致延迟严重
80B 的模型，Opus 数据集对它能力的改变几乎没有，主要是回复风格的改变

--【拾壹】--：

--【拾贰】--：

说的有道理,我比较看重质量,所以等一下没什么,毕竟如果接入网络大模型也还有中转,代理的耗时,也不快,最重要的能跑的动且能输出满意的结果

--【拾叁】--： Grogu:

Gemma4-31B

Gemma4-31B也跑了,不过有点跑不动,后面就删了,我选择的最适合我的这几个测试了一下,不是专业测评,见笑了

--【拾肆】--：

稠密模型 + token的回复速度更快 + 综合表现，我觉得更舒服吧，但是qwen3.5-27-opus rd 也是小钢炮，就是慢了点，两个差不多是不相上下，写代码更强

--【拾伍】--： 泗水亭长，post:5, topic:1928391:

Gemma 4

Gemma 4 这么强吗，可惜我显卡太垃圾了

--【拾陆】--：

对，稠密模型会更耗资源一些

三个模型，不同代，不同架构，参数体量差别又很大

Qwen3.5-27B 可以换成 Qwen3.5-35-A3B 试试

或者

Gemma4-26B-A4B 换成 Gemma4-31B，Qwen3-Coder-Next 弃掉

或者比较

Qwen3.5-27B，Gemma4-31B，Qwen3.5-35-A3B，Gemma4-26B-A4B

这四个

--【拾柒】--：

--【拾捌】--：

佬友跑的是 Qwen3-Coder-Next Q4_K_M，内存卸载了吧

--【拾玖】--：

在充满token焦虑的时代,处理一些不是特别复杂的任务,或是数据敏感的任务,是一个不错的选择,下一步想让龙虾接入试试,等有时间研究下

标签：人工智能

三个模型评测测试报告

1). 测试概述

2).电脑硬件参数

2. 测试方法与统一设置

2.1 统一参数

2.2 测试集规模

2.3 评分公式

3. 总体结果汇总

4. 单模型详细测试结果

4.1 Gemma 4 - 26B A4B x Claude Opus 4.6

4.1.1 分项成绩

4.1.2 表现分析

4.1.3 结论

4.2 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

4.2.1 分项成绩

4.2.2 表现分析

4.2.3 结论

4.3 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

4.3.1 分项成绩

4.3.2 表现分析

4.3.3 结论

5. 横向对比分析

5.1 逻辑能力对比

5.2 代码能力对比

5.3 速度对比

5.4 稳定性对比

6. 关键结论

6.1 综合排名

6.2 场景化推荐

更重视综合能力与响应速度

更重视代码生成、数学能力与稳定性

更重视纯代码用途，且能接受逻辑短板

7. 最终总结

相关推荐

三个模型评测测试报告

1). 测试概述

2).电脑硬件参数

2. 测试方法与统一设置

2.1 统一参数

2.2 测试集规模

2.3 评分公式

3. 总体结果汇总

4. 单模型详细测试结果

4.1 Gemma 4 - 26B A4B x Claude Opus 4.6

4.1.1 分项成绩

4.1.2 表现分析

4.1.3 结论

4.2 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

4.2.1 分项成绩

4.2.2 表现分析

4.2.3 结论

4.3 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

4.3.1 分项成绩

4.3.2 表现分析

4.3.3 结论

5. 横向对比分析

5.1 逻辑能力对比

5.2 代码能力对比

5.3 速度对比

5.4 稳定性对比

6. 关键结论

6.1 综合排名

6.2 场景化推荐

更重视综合能力与响应速度

更重视代码生成、数学能力与稳定性

更重视纯代码用途，且能接受逻辑短板

7. 最终总结

相关推荐