自部署小模型翻译能力横评：12 款 ≤7B 模型 × 5 种语言 × LINUX DO 真实内容，TranslateGemma 4B 登顶

2026-04-11 12:481阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

从悬赏：自部署小模型对于翻译任务的能力测评继续。

本文测评在M4的Mac Mini上通过Ollama本地部署完成，覆盖 12 款模型、5 种目标语言和 12 类论坛内容，共 1980 条翻译。

~~太长不看~~，可以直接去文末看结论。

1.测试环境与部署

硬件

项目	配置
设备	Apple Silicon Mac（arm64）
内存	16 GB 统一内存
系统	macOS 26.3.1

软件

项目	版本/说明
推理引擎	Ollama 0.17.7
量化格式	默认 Q4_K_M（Ollama 自动选择）
API	Ollama REST API（`/api/generate`，HY-MT 使用 `/api/chat`）
推理参数	`temperature=0.1`（通用模型）/ `temperature=0.7, top_k=20, top_p=0.6`（HY-MT 官方推荐参数）

部署步骤

# 1. 安装 Ollama curl -fsSL https://ollama.com/install.sh | sh # 2. 拉取模型（以 qwen2.5:3b 为例） ollama pull qwen2.5:3b # 3. 测试翻译 curl http://localhost:11434/api/generate -d '{ "model": "qwen2.5:3b", "prompt": "Translate to English. Output ONLY the translation:\n\n开发调优", "stream": false }'

HY-MT 需要额外步骤：

# 下载 GGUF 权重 curl -L "https://huggingface.co/tencent/HY-MT1.5-1.8B-GGUF/resolve/main/HY-MT1.5-1.8B-Q4_K_M.gguf" \ -o hy-mt.gguf # 创建 Modelfile cat > Modelfile << 'EOF' FROM ./hy-mt.gguf TEMPLATE """{{ if .System }}<|im_start|>system {{ .System }}<|im_end|> {{ end }}{{ if .Prompt }}<|im_start|>user {{ .Prompt }}<|im_end|> <|im_start|>assistant {{ end }}{{ .Response }}<|im_end|> """ PARAMETER temperature 0.7 PARAMETER top_k 20 PARAMETER top_p 0.6 PARAMETER repeat_penalty 1.05 PARAMETER stop "<|im_end|>" EOF ollama create hy-mt1.5:1.8b -f Modelfile

2.测试方法

2.1 测试集

为保证内容多样，提升结果可参考性，我从论坛的UI界面，不同分类的帖子标题、内容和回应中采集了33条样本，覆盖12个内容类别：

类别	数量	说明
UI-分类名	5	开发调优、福利羊毛、搞七捻三、前沿快讯、跳蚤市场
UI-分类描述	3	版块介绍文字
UI-标签	4	人工智能、薅羊毛、精华神帖、快问快答
UI-界面文字	4	话题、我的帖子、打开高级搜索、编辑边栏类别
标题-技术	3	开源工具、切号问题、仓库开发
标题-闲聊	3	openclaw、炒股、挖野菜
标题-黑话	4	龙虾、降智、邀请码、小龙虾
标题-福利	3	爽蹬、车位、家庭组
正文-正式公告	1	L站国际化公告（长文）
正文-技术讨论	1	LLM 自部署经验（含技术术语）
正文-口语黑话	1	反重力 opus + 小龙虾（密集黑话）
正文-交易帖	1	ChatGPT Plus 出号 + 车位拼车

2.2 翻译Prompt

Translate the following Chinese text to {language}. Output ONLY the translation, nothing else. {text}

2.3 评价方法

鉴于翻译的主要目标是面向用户提升阅读体验，因此本次测试中我没有设计和选用学术风格的测试指标来进行结果的量化，而是使用高级模型代替人类专家进行多维度翻译结果评价的方式来评判。模型选择最会说人话的claude-opus-4-6，评价维度包括但不限于：

准确性：原意是否传达正确
流畅度：目标语言是否自然通顺
指令遵从：是否只输出翻译、不附加注释
中文残留：输出中是否残留中文字符
黑话处理：论坛特有表达的翻译策略
速度：吞吐量（tokens/s）和响应时间

3.模型一览

主测试目标：最新一代模型

模型	参数量	文件大小	类型
Gemma 3 1B	1B	815 MB	Google 最新小模型
Gemma 3 4B	4B	3.3 GB	Google 最新中等模型
TranslateGemma 4B	4B	3.3 GB	Google 专项翻译模型（基于 Gemma 3）
Qwen 3.5 2B	2B	2.7 GB	阿里最新（带 thinking）
Qwen 3.5 4B	4B	3.4 GB	阿里最新（带 thinking）
HY-MT 1.5 1.8B	1.8B	1.1 GB	专项翻译模型

Baseline：上一代模型

模型	参数量	文件大小
Qwen 2.5 3B	3B	1.9 GB
Qwen 2.5 7B	7B	4.7 GB
Gemma 2 2B	2B	1.6 GB
Llama 3.2 3B	3B	2.0 GB
Phi 3.5 3.8B	3.8B	2.2 GB
Mistral 7B	7B	4.4 GB

关于 Llama 4：最小版本是 Scout 16×17B（109B 激活参数），远超 ≤7B 限制，不纳入本次测试。

4.速度排行

排名	模型	平均速度	总耗时	备注
	gemma3:1b	106.4 tok/s	81s	极快，但质量堪忧
	hy-mt1.5:1.8b	76.7 tok/s	~90s	专项翻译，速度优秀
	gemma2:2b	61.5 tok/s	~120s	上代小模型
4	qwen2.5:3b	54.2 tok/s	~140s	上代主力
5	llama3.2:3b	50.9 tok/s	~180s
6	phi3.5:3.8b	44.9 tok/s	~350s	废话多导致慢
7	translategemma:4b	42.2 tok/s	181s	Google 专项翻译
8	gemma3:4b	40.9 tok/s	216s	新一代
9	qwen3.5:2b	36.6 tok/s	179s	需关 thinking
10	qwen2.5:7b	24.1 tok/s	~320s
11	mistral:7b	23.4 tok/s	~370s	废话多导致慢
12	qwen3.5:4b	21.4 tok/s	323s	需关 thinking

5. 翻译质量对比

5.1 L 站黑话翻译（英文）

“gpt team 车位 2 个”

上下文：“车位” = 拼车/共享订阅名额

模型	翻译
qwen3.5:4b	GPT Team: 2 parking spaces available.
qwen3.5:2b	GPT Team parking spaces: 2 available.
qwen2.5:3b	GPT team has 2 spots
gemma3:4b	gpt team parking spots 2
gemma3:1b	Parking space 2
mistral:7b	Parking spot: 2 (+ 附带一段机翻免责声明)

发现：所有模型都把 “车位” 直译成了 parking space/spot——这是 L 站特有黑话（指订阅拼车名额），小模型无法理解这层语境。

“薅羊毛”（标签）

模型	翻译	评价
qwen3.5:2b	Scraping for freebies	最佳，精准传达含义
qwen2.5:7b	Free ride	语义偏移
qwen2.5:3b	Scamming or Fraud	含义歪了
gemma3:4b	Shave the sheep (+ 解释)	直译
gemma3:1b	Steal sheep’s wool	直译
llama3.2:3b	Sheep combing
phi3.5:3.8b	Grow wool	完全反了

“精华神帖”（标签）

模型	翻译
gemma3:4b	Essential posts
qwen3.5:2b	Essential Wisdom Post
qwen2.5:3b	Essence Hot Topic
gemma3:1b	The Essence of Heaven Scroll
gemma2:2b	Essence of the Divine Scrolls
llama3.2:3b	Essence of the Divine Record

5.2 标准翻译质量（正式内容）

在标准正式内容上，各模型差距缩小。以 L 站国际化公告为例（长文翻译），qwen3.5:4b、qwen2.5:7b、mistral:7b 表现较好，gemma3:1b 最差。

5.3 UI 元素翻译

原文	最佳翻译	翻车案例
跳蚤市场	Flea market（多数模型正确）	gemma3:1b → Swarm Market；mistral:7b → Bed Bug Market
搞七捻三	confused and disordered (qwen3.5:4b)	gemma3:1b → “Let’s do seven twists three”
快问快答	Quick Q&A (多数正确)	gemma3:4b(日语) → “はい、はい。”（???）

6. 关键指标分析

中文泄漏率（排除日语）

翻译成非中文语言时，输出中仍残留中文字符的比例：

模型	泄漏率	评价
hy-mt1.5:1.8b	1.5%	最低
qwen3.5:4b	3.0%	优秀
qwen3.5:2b	6.8%	良好
gemma3:4b	9.1%	中等
gemma2:2b	11.4%
gemma3:1b	13.6%
phi3.5:3.8b	17.4%
qwen2.5:3b	18.2%
qwen2.5:7b	20.5%	7B 还不如 2B
llama3.2:3b	22.0%
mistral:7b	28.0%	最差

意外发现：qwen2.5:7b 的中文泄漏率竟然比 qwen2.5:3b 还高。Qwen 3.5 在这方面有巨大进步。

多余注释率/指令遵从

模型不老实翻译，非要加一段 “Note: this is a…” 解释的比例，一定程度反映了模型的指令遵从能力：

模型	废话率
qwen3.5:2b / 4b	0.0%
qwen2.5:3b / 7b	~0.6%
gemma3:1b / 4b	1.2%
hy-mt1.5:1.8b	1.2%
phi3.5:3.8b	40.6%
mistral:7b	39.4%

phi3.5 和 mistral 严重不适合翻译任务——近 40% 的输出都附带了多余的注释、解释或免责声明，直接导致翻译不可用。

7. 不同语言翻译能力对比

不同语言的翻译难度差异巨大。以下是各模型在 5 种目标语言上的分项表现。

中文泄漏率（按语言拆分）

中文泄漏是衡量翻译"干净度"的核心指标——输出中不应该残留中文字符。

模型	英语	韩语	俄语	德语
hy-mt1.5:1.8b	0%	0%	0%	6%
translategemma:4b	0%	18%	3%	3%
qwen3.5:4b	3%	3%	3%	3%
qwen3.5:2b	3%	15%	9%	0%
gemma3:4b	3%	18%	9%	6%
gemma3:1b	21%	12%	15%	6%
qwen2.5:3b	9%	33%	30%	0%
qwen2.5:7b	24%	39%	18%	0%
llama3.2:3b	3%	64%	21%	0%
mistral:7b	6%	52%	30%	24%

关键发现：

韩语是重灾区：llama3.2 64%、mistral 52%、qwen2.5:7b 39% 的输出混有中文。小模型普遍不擅长中→韩翻译

德语最干净：多数模型在德语上零泄漏或极低泄漏

英语虽然泄漏率低，但 qwen2.5:7b 反而比 3b 还差（24% vs 9%）

qwen3.5:4b 是唯一在所有语言上都 ≤3% 的模型

多余注释率（按语言拆分）

phi3.5 和 mistral 的"废话"问题在日韩语上特别严重：

模型	英语	日语	韩语	俄语	德语
qwen3.5:2b / 4b	0	0	0	0	0
translategemma:4b	1	0	0	0	0
gemma3:4b	2	0	0	0	1
phi3.5:3.8b	4	21	14	15	15
mistral:7b	5	23	16	14	15

phi3.5 和 mistral 在日语翻译上有 60-70% 的输出附带多余注释，完全不可用。

各语言翻译质量概览

英语（最成熟）

英语翻译是所有模型的强项，整体差距最小。

最佳：qwen3.5:4b ≈ qwen3.5:2b ≈ gemma3:4b
基本所有模型都能产出可读的英文翻译
主要区别在于：中文泄漏（qwen2.5 系列偏高）和废话率（phi3.5/mistral）

日语（中等难度）

日语因为共享汉字，情况比较特殊——中文泄漏不易检测，但翻译准确度差异大。

「跳蚤市场」→ 日语

模型	翻译	评价
gemma3:4b	蚤の市	地道
translategemma:4b	フリーマーケット	正确（外来语）
gemma3:1b	蚤市	省略了「の」
qwen3.5:4b	ヤード・セール	这是「garage sale」
qwen3.5:2b	ジャンボマーケ	乱翻

「搞七捻三」→ 日语

模型	翻译	评价
qwen3.5:4b	(输出了一段解释而非翻译)	废话
gemma3:4b	搞七捻三	直接回显原文
qwen2.5:3b	七つ折る

最佳：gemma3:4b（UI 短词地道）和 qwen3.5:4b（长文流畅）、translategemma:4b（标准翻译准确）
最差：phi3.5 / mistral（60-70% 废话率）
gemma3:4b 在日语 UI 短词上有优势（如蚤の市、人工知能），但长文不如 qwen3.5

韩语（最难）

韩语是本次测试中翻译质量最差的语言——所有模型都大面积翻车。

「跳蚤市场」→ 韩语

模型	翻译	评价
gemma3:4b	벼룩시장	正确
translategemma:4b	벼룩시장	正确
qwen3.5:4b	개구리 시장	青蛙市场
qwen3.5:2b	파티마켓	派对市场
gemma3:1b	시장 장수동
qwen2.5:3b	flea market	输出了英文

「薅羊毛」→ 韩语

模型	翻译	评价
qwen3.5:4b	양모 뽑기	字面直译
gemma3:4b	털을 뽑다	字面直译
qwen2.5:3b	薅羊毛	直接回显中文

最佳：gemma3:4b 和 translategemma:4b（韩语 UI 短词均正确）
中文泄漏极其严重：llama3.2 64%、mistral 52%
qwen3.5:4b 虽然韩语泄漏低（3%），但翻译准确度不如 gemma3:4b
结论：韩语翻译需要 >7B 模型或专项韩语模型

俄语（中等）

俄语翻译质量居中，主要问题是中文泄漏和直译。

「跳蚤市场」→ 俄语

模型	翻译	评价
translategemma:4b	Блошиный рынок	地道
qwen3.5:4b	Рынок блошек	可理解但不地道
gemma3:4b	Рынок объявлений	广告市场（偏了）
gemma3:1b	Дроздный рынок	鸫鸟市场？
qwen2.5:3b	flea market	输出了英文

最佳：qwen3.5:4b（泄漏低、质量稳定）
hy-mt1.5 在正式俄语文本上表现突出（零泄漏）
qwen2.5 系列和 mistral 泄漏率高达 30%

德语（表现最好的非英语语言）

德语是英语之外翻译质量最高的语言。

「跳蚤市场」→ 德语

模型	翻译	评价
qwen3.5:4b	Flohmärkte	正确（复数）
gemma3:4b	Flohmarkt	正确
gemma3:1b	Markt der Mücken	蚊子市场
qwen3.5:2b	Börse	交易所

最佳：qwen3.5:4b ≈ gemma3:4b
中文泄漏率普遍很低
主要问题集中在黑话和俗语的直译上

8. 结论

综合评分榜

综合速度、中文泄漏率、废话率、可靠性和翻译准确度，五维评分（满分 100）：

排名	模型	总分	速度	泄漏	废话	可靠	准确	一句话点评
	translategemma:4b	90.0	12.1	15.2	14.8	10.0	38.0	专项翻译模型，很强
	qwen3.5:4b	88.0	10.0	17.6	15.0	10.0	35.4	综合极强，全语言泄漏≤3%
	gemma3:4b	84.2	12.0	12.7	14.3	10.0	35.2	开箱即用，韩语最强
4	qwen3.5:2b	81.0	11.6	14.5	15.0	10.0	29.9	轻量首选，英德语优秀
5	gemma2:2b	70.6	13.3	10.9	14.8	7.6	24.1	上代小模型还能打
6	gemma3:1b	68.4	15.0	9.1	14.3	10.0	20.1	极速但翻译质量差
7	hy-mt1.5:1.8b	68.3	14.0	18.8	14.5	0.3	20.7	泄漏最低，但黑话崩
8	qwen2.5:7b	65.6	10.4	3.6	14.8	10.0	26.9	参数多不一定好
9	qwen2.5:3b	65.4	12.9	5.5	14.8	10.0	22.3	速度不错但泄漏高
10	llama3.2:3b	57.1	12.7	2.4	14.8	5.2	22.1	韩语泄漏 64%
11	phi3.5:3.8b	41.6	12.3	6.1	0.0	5.2	18.1	42% 废话率，不可用
12	mistral:7b	37.5	10.3	0.0	0.0	10.0	17.3	44% 废话 + 28% 泄漏

评分维度说明：

速度（15 分）：推理吞吐量，对数归一化
泄漏（20 分）：中文泄漏率越低越好，按英/韩/俄/德四语平均
废话（15 分）：多余注释/解释率越低越好
可靠（10 分）：翻译错误、超时率越低越好
准确（40 分）：自动校验 + 人工质量评估，权重最高

选型参考

个人建议

[!success]

对于论坛黑话，提供术语表供模型参考，微调感觉对小模型效果不一定好，且缺少高质量数据集

不同场景，不同类型帖子，不同目标语言选择不同模型

开始测试该功能时采用A/B test模式，给不同用户返回不同模型的翻译结果，供用户评价，按照评价选择不同类型帖子，不同场景下的最佳适配模型

claude建议

image1324×1254 146 KB

分语言速查推荐

使用场景	推荐方案
英语翻译	TranslateGemma:4b 或 qwen3.5:4b
日语翻译	TranslateGemma:4b / gemma3:4b（UI 短词） / qwen3.5:4b（长文）
韩语翻译	TranslateGemma:4b 或 gemma3:4b；qwen3.5:4b 不建议主用
俄语翻译	TranslateGemma:4b 首选；正式文本可用 hy-mt1.5
德语翻译	TranslateGemma:4b、qwen3.5:4b、gemma3:4b 都很强
追求速度	TranslateGemma:4b / gemma3:4b
正式文本 only	TranslateGemma:4b 或 hy-mt1.5:1.8b
显存 ≤4GB	qwen3.5:2b（通用） / translategemma:4b（翻译专项）

不推荐

模型	原因
phi3.5:3.8b	40% 废话率，翻译几乎不可用
mistral:7b	39% 废话率 + 28% 中文泄漏，双重灾难
gemma3:1b	速度极快但翻译质量太差（Swarm Market、Heaven Scroll）
hy-mt1.5:1.8b	专项模型但对黑话/口语输入不稳定，会拒绝翻译或回显原文

image1354×644 71.7 KB

9. 额外发现

在测评 Qwen3.5系列模型的时候，遇到了模型自带思考无法关闭的情况，去网上找了相关的解决方案，有很多种，例如加参数等等，有些是无效的。最终尝试的有效方案如下：

在给模型的content内容开头加入<think></think>欺骗模型以及思考完成即可绕过思考，明显提升推理速度。

本测评的完整数据（1815 条翻译原始结果 JSON）：
results.json.zip (175.6 KB)

测评环境：Apple Silicon Mac 16GB / Ollama 0.17.7 / 2026.03.08
测评和文章大部分由OpenClaw完成，部分段落（如图表等）为了保证可读性，未使用截图方式，请见谅！

网友解答：

--【壹】--：

好的，等会补上

--【贰】--：

前排支持，不过GLOSSARY里的反重力怎么是A社啊

--【叁】--： 测评：自部署 Qwen3.5-0.8B 模型翻译能力详细评测悬赏

[PixPin_2026-03-08_13-03-05] [PixPin_2026-03-08_12-33-46] 一、安装部署步骤 1.1 环境准备 # 安装 Homebrew (如未安装) /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install…

墨子佬这边测过了

--【肆】--：

太强了，好详细的分析

--【伍】--：

CPU推理的

--【陆】--：

坐等测试 Qwen 3.5 小模型

--【柒】--：

qwen为啥不测3.5版本的

--【捌】--：

新模型正在测（）

--【玖】--：

怎么都是很老的模型？

--【拾】--：

claude：雾（）

--【拾壹】--：

还有一个需求就是模型审查，我测的那个版本是去掉审查的模型版本

--【拾贰】--：

感谢佬友，另外请问 Qwen 3.5 4B 适合做翻译吗

--【拾叁】--：

是干货支持

--【拾肆】--：

Ollama部署的都是guff的吧 Ollama还是不适合生产基本部署啊

--【拾伍】--：

ollama可以用内存做算力吗

--【拾陆】--：

比2.5强，看2.5结果便知

--【拾柒】--：

我建议还是测一下，不同人测的评价标准不一样，不好比较；要放在同一个评价标准下比较才更清晰

--【拾捌】--：

对啊，我看到结果感觉很疑惑。一看总榜单没有 3.5

--【拾玖】--：

感谢佬测评，尤其日语这块，看来小模型还是不够

标签：人工智能原创悬赏

问题描述：

从悬赏：自部署小模型对于翻译任务的能力测评继续。

本文测评在M4的Mac Mini上通过Ollama本地部署完成，覆盖 12 款模型、5 种目标语言和 12 类论坛内容，共 1980 条翻译。

~~太长不看~~，可以直接去文末看结论。

1.测试环境与部署

硬件

项目	配置
设备	Apple Silicon Mac（arm64）
内存	16 GB 统一内存
系统	macOS 26.3.1

软件

项目	版本/说明
推理引擎	Ollama 0.17.7
量化格式	默认 Q4_K_M（Ollama 自动选择）
API	Ollama REST API（`/api/generate`，HY-MT 使用 `/api/chat`）
推理参数	`temperature=0.1`（通用模型）/ `temperature=0.7, top_k=20, top_p=0.6`（HY-MT 官方推荐参数）

部署步骤

HY-MT 需要额外步骤：

2.测试方法

2.1 测试集

为保证内容多样，提升结果可参考性，我从论坛的UI界面，不同分类的帖子标题、内容和回应中采集了33条样本，覆盖12个内容类别：

类别	数量	说明
UI-分类名	5	开发调优、福利羊毛、搞七捻三、前沿快讯、跳蚤市场
UI-分类描述	3	版块介绍文字
UI-标签	4	人工智能、薅羊毛、精华神帖、快问快答
UI-界面文字	4	话题、我的帖子、打开高级搜索、编辑边栏类别
标题-技术	3	开源工具、切号问题、仓库开发
标题-闲聊	3	openclaw、炒股、挖野菜
标题-黑话	4	龙虾、降智、邀请码、小龙虾
标题-福利	3	爽蹬、车位、家庭组
正文-正式公告	1	L站国际化公告（长文）
正文-技术讨论	1	LLM 自部署经验（含技术术语）
正文-口语黑话	1	反重力 opus + 小龙虾（密集黑话）
正文-交易帖	1	ChatGPT Plus 出号 + 车位拼车

2.2 翻译Prompt

Translate the following Chinese text to {language}. Output ONLY the translation, nothing else. {text}

2.3 评价方法

准确性：原意是否传达正确
流畅度：目标语言是否自然通顺
指令遵从：是否只输出翻译、不附加注释
中文残留：输出中是否残留中文字符
黑话处理：论坛特有表达的翻译策略
速度：吞吐量（tokens/s）和响应时间

3.模型一览

主测试目标：最新一代模型

模型	参数量	文件大小	类型
Gemma 3 1B	1B	815 MB	Google 最新小模型
Gemma 3 4B	4B	3.3 GB	Google 最新中等模型
TranslateGemma 4B	4B	3.3 GB	Google 专项翻译模型（基于 Gemma 3）
Qwen 3.5 2B	2B	2.7 GB	阿里最新（带 thinking）
Qwen 3.5 4B	4B	3.4 GB	阿里最新（带 thinking）
HY-MT 1.5 1.8B	1.8B	1.1 GB	专项翻译模型

Baseline：上一代模型

模型	参数量	文件大小
Qwen 2.5 3B	3B	1.9 GB
Qwen 2.5 7B	7B	4.7 GB
Gemma 2 2B	2B	1.6 GB
Llama 3.2 3B	3B	2.0 GB
Phi 3.5 3.8B	3.8B	2.2 GB
Mistral 7B	7B	4.4 GB

关于 Llama 4：最小版本是 Scout 16×17B（109B 激活参数），远超 ≤7B 限制，不纳入本次测试。

4.速度排行

排名	模型	平均速度	总耗时	备注
	gemma3:1b	106.4 tok/s	81s	极快，但质量堪忧
	hy-mt1.5:1.8b	76.7 tok/s	~90s	专项翻译，速度优秀
	gemma2:2b	61.5 tok/s	~120s	上代小模型
4	qwen2.5:3b	54.2 tok/s	~140s	上代主力
5	llama3.2:3b	50.9 tok/s	~180s
6	phi3.5:3.8b	44.9 tok/s	~350s	废话多导致慢
7	translategemma:4b	42.2 tok/s	181s	Google 专项翻译
8	gemma3:4b	40.9 tok/s	216s	新一代
9	qwen3.5:2b	36.6 tok/s	179s	需关 thinking
10	qwen2.5:7b	24.1 tok/s	~320s
11	mistral:7b	23.4 tok/s	~370s	废话多导致慢
12	qwen3.5:4b	21.4 tok/s	323s	需关 thinking

5. 翻译质量对比

5.1 L 站黑话翻译（英文）

“gpt team 车位 2 个”

上下文：“车位” = 拼车/共享订阅名额

模型	翻译
qwen3.5:4b	GPT Team: 2 parking spaces available.
qwen3.5:2b	GPT Team parking spaces: 2 available.
qwen2.5:3b	GPT team has 2 spots
gemma3:4b	gpt team parking spots 2
gemma3:1b	Parking space 2
mistral:7b	Parking spot: 2 (+ 附带一段机翻免责声明)

发现：所有模型都把 “车位” 直译成了 parking space/spot——这是 L 站特有黑话（指订阅拼车名额），小模型无法理解这层语境。

“薅羊毛”（标签）

模型	翻译	评价
qwen3.5:2b	Scraping for freebies	最佳，精准传达含义
qwen2.5:7b	Free ride	语义偏移
qwen2.5:3b	Scamming or Fraud	含义歪了
gemma3:4b	Shave the sheep (+ 解释)	直译
gemma3:1b	Steal sheep’s wool	直译
llama3.2:3b	Sheep combing
phi3.5:3.8b	Grow wool	完全反了

“精华神帖”（标签）

模型	翻译
gemma3:4b	Essential posts
qwen3.5:2b	Essential Wisdom Post
qwen2.5:3b	Essence Hot Topic
gemma3:1b	The Essence of Heaven Scroll
gemma2:2b	Essence of the Divine Scrolls
llama3.2:3b	Essence of the Divine Record

5.2 标准翻译质量（正式内容）

在标准正式内容上，各模型差距缩小。以 L 站国际化公告为例（长文翻译），qwen3.5:4b、qwen2.5:7b、mistral:7b 表现较好，gemma3:1b 最差。

5.3 UI 元素翻译

原文	最佳翻译	翻车案例
跳蚤市场	Flea market（多数模型正确）	gemma3:1b → Swarm Market；mistral:7b → Bed Bug Market
搞七捻三	confused and disordered (qwen3.5:4b)	gemma3:1b → “Let’s do seven twists three”
快问快答	Quick Q&A (多数正确)	gemma3:4b(日语) → “はい、はい。”（???）

6. 关键指标分析

中文泄漏率（排除日语）

翻译成非中文语言时，输出中仍残留中文字符的比例：

模型	泄漏率	评价
hy-mt1.5:1.8b	1.5%	最低
qwen3.5:4b	3.0%	优秀
qwen3.5:2b	6.8%	良好
gemma3:4b	9.1%	中等
gemma2:2b	11.4%
gemma3:1b	13.6%
phi3.5:3.8b	17.4%
qwen2.5:3b	18.2%
qwen2.5:7b	20.5%	7B 还不如 2B
llama3.2:3b	22.0%
mistral:7b	28.0%	最差

意外发现：qwen2.5:7b 的中文泄漏率竟然比 qwen2.5:3b 还高。Qwen 3.5 在这方面有巨大进步。

多余注释率/指令遵从

模型不老实翻译，非要加一段 “Note: this is a…” 解释的比例，一定程度反映了模型的指令遵从能力：

模型	废话率
qwen3.5:2b / 4b	0.0%
qwen2.5:3b / 7b	~0.6%
gemma3:1b / 4b	1.2%
hy-mt1.5:1.8b	1.2%
phi3.5:3.8b	40.6%
mistral:7b	39.4%

phi3.5 和 mistral 严重不适合翻译任务——近 40% 的输出都附带了多余的注释、解释或免责声明，直接导致翻译不可用。

7. 不同语言翻译能力对比

不同语言的翻译难度差异巨大。以下是各模型在 5 种目标语言上的分项表现。

中文泄漏率（按语言拆分）

中文泄漏是衡量翻译"干净度"的核心指标——输出中不应该残留中文字符。

模型	英语	韩语	俄语	德语
hy-mt1.5:1.8b	0%	0%	0%	6%
translategemma:4b	0%	18%	3%	3%
qwen3.5:4b	3%	3%	3%	3%
qwen3.5:2b	3%	15%	9%	0%
gemma3:4b	3%	18%	9%	6%
gemma3:1b	21%	12%	15%	6%
qwen2.5:3b	9%	33%	30%	0%
qwen2.5:7b	24%	39%	18%	0%
llama3.2:3b	3%	64%	21%	0%
mistral:7b	6%	52%	30%	24%

关键发现：

韩语是重灾区：llama3.2 64%、mistral 52%、qwen2.5:7b 39% 的输出混有中文。小模型普遍不擅长中→韩翻译

德语最干净：多数模型在德语上零泄漏或极低泄漏

英语虽然泄漏率低，但 qwen2.5:7b 反而比 3b 还差（24% vs 9%）

qwen3.5:4b 是唯一在所有语言上都 ≤3% 的模型

多余注释率（按语言拆分）

phi3.5 和 mistral 的"废话"问题在日韩语上特别严重：

模型	英语	日语	韩语	俄语	德语
qwen3.5:2b / 4b	0	0	0	0	0
translategemma:4b	1	0	0	0	0
gemma3:4b	2	0	0	0	1
phi3.5:3.8b	4	21	14	15	15
mistral:7b	5	23	16	14	15

phi3.5 和 mistral 在日语翻译上有 60-70% 的输出附带多余注释，完全不可用。

各语言翻译质量概览

英语（最成熟）

英语翻译是所有模型的强项，整体差距最小。

最佳：qwen3.5:4b ≈ qwen3.5:2b ≈ gemma3:4b
基本所有模型都能产出可读的英文翻译
主要区别在于：中文泄漏（qwen2.5 系列偏高）和废话率（phi3.5/mistral）

日语（中等难度）

日语因为共享汉字，情况比较特殊——中文泄漏不易检测，但翻译准确度差异大。

「跳蚤市场」→ 日语

模型	翻译	评价
gemma3:4b	蚤の市	地道
translategemma:4b	フリーマーケット	正确（外来语）
gemma3:1b	蚤市	省略了「の」
qwen3.5:4b	ヤード・セール	这是「garage sale」
qwen3.5:2b	ジャンボマーケ	乱翻

「搞七捻三」→ 日语

模型	翻译	评价
qwen3.5:4b	(输出了一段解释而非翻译)	废话
gemma3:4b	搞七捻三	直接回显原文
qwen2.5:3b	七つ折る

最佳：gemma3:4b（UI 短词地道）和 qwen3.5:4b（长文流畅）、translategemma:4b（标准翻译准确）
最差：phi3.5 / mistral（60-70% 废话率）
gemma3:4b 在日语 UI 短词上有优势（如蚤の市、人工知能），但长文不如 qwen3.5

韩语（最难）

韩语是本次测试中翻译质量最差的语言——所有模型都大面积翻车。

「跳蚤市场」→ 韩语

模型	翻译	评价
gemma3:4b	벼룩시장	正确
translategemma:4b	벼룩시장	正确
qwen3.5:4b	개구리 시장	青蛙市场
qwen3.5:2b	파티마켓	派对市场
gemma3:1b	시장 장수동
qwen2.5:3b	flea market	输出了英文

「薅羊毛」→ 韩语

模型	翻译	评价
qwen3.5:4b	양모 뽑기	字面直译
gemma3:4b	털을 뽑다	字面直译
qwen2.5:3b	薅羊毛	直接回显中文

最佳：gemma3:4b 和 translategemma:4b（韩语 UI 短词均正确）
中文泄漏极其严重：llama3.2 64%、mistral 52%
qwen3.5:4b 虽然韩语泄漏低（3%），但翻译准确度不如 gemma3:4b
结论：韩语翻译需要 >7B 模型或专项韩语模型

俄语（中等）

俄语翻译质量居中，主要问题是中文泄漏和直译。

「跳蚤市场」→ 俄语

模型	翻译	评价
translategemma:4b	Блошиный рынок	地道
qwen3.5:4b	Рынок блошек	可理解但不地道
gemma3:4b	Рынок объявлений	广告市场（偏了）
gemma3:1b	Дроздный рынок	鸫鸟市场？
qwen2.5:3b	flea market	输出了英文

最佳：qwen3.5:4b（泄漏低、质量稳定）
hy-mt1.5 在正式俄语文本上表现突出（零泄漏）
qwen2.5 系列和 mistral 泄漏率高达 30%

德语（表现最好的非英语语言）

德语是英语之外翻译质量最高的语言。

「跳蚤市场」→ 德语

模型	翻译	评价
qwen3.5:4b	Flohmärkte	正确（复数）
gemma3:4b	Flohmarkt	正确
gemma3:1b	Markt der Mücken	蚊子市场
qwen3.5:2b	Börse	交易所

最佳：qwen3.5:4b ≈ gemma3:4b
中文泄漏率普遍很低
主要问题集中在黑话和俗语的直译上

8. 结论

综合评分榜

综合速度、中文泄漏率、废话率、可靠性和翻译准确度，五维评分（满分 100）：

排名	模型	总分	速度	泄漏	废话	可靠	准确	一句话点评
	translategemma:4b	90.0	12.1	15.2	14.8	10.0	38.0	专项翻译模型，很强
	qwen3.5:4b	88.0	10.0	17.6	15.0	10.0	35.4	综合极强，全语言泄漏≤3%
	gemma3:4b	84.2	12.0	12.7	14.3	10.0	35.2	开箱即用，韩语最强
4	qwen3.5:2b	81.0	11.6	14.5	15.0	10.0	29.9	轻量首选，英德语优秀
5	gemma2:2b	70.6	13.3	10.9	14.8	7.6	24.1	上代小模型还能打
6	gemma3:1b	68.4	15.0	9.1	14.3	10.0	20.1	极速但翻译质量差
7	hy-mt1.5:1.8b	68.3	14.0	18.8	14.5	0.3	20.7	泄漏最低，但黑话崩
8	qwen2.5:7b	65.6	10.4	3.6	14.8	10.0	26.9	参数多不一定好
9	qwen2.5:3b	65.4	12.9	5.5	14.8	10.0	22.3	速度不错但泄漏高
10	llama3.2:3b	57.1	12.7	2.4	14.8	5.2	22.1	韩语泄漏 64%
11	phi3.5:3.8b	41.6	12.3	6.1	0.0	5.2	18.1	42% 废话率，不可用
12	mistral:7b	37.5	10.3	0.0	0.0	10.0	17.3	44% 废话 + 28% 泄漏

评分维度说明：

速度（15 分）：推理吞吐量，对数归一化
泄漏（20 分）：中文泄漏率越低越好，按英/韩/俄/德四语平均
废话（15 分）：多余注释/解释率越低越好
可靠（10 分）：翻译错误、超时率越低越好
准确（40 分）：自动校验 + 人工质量评估，权重最高

选型参考

个人建议

[!success]

对于论坛黑话，提供术语表供模型参考，微调感觉对小模型效果不一定好，且缺少高质量数据集

不同场景，不同类型帖子，不同目标语言选择不同模型

开始测试该功能时采用A/B test模式，给不同用户返回不同模型的翻译结果，供用户评价，按照评价选择不同类型帖子，不同场景下的最佳适配模型

claude建议

image1324×1254 146 KB

分语言速查推荐

使用场景	推荐方案
英语翻译	TranslateGemma:4b 或 qwen3.5:4b
日语翻译	TranslateGemma:4b / gemma3:4b（UI 短词） / qwen3.5:4b（长文）
韩语翻译	TranslateGemma:4b 或 gemma3:4b；qwen3.5:4b 不建议主用
俄语翻译	TranslateGemma:4b 首选；正式文本可用 hy-mt1.5
德语翻译	TranslateGemma:4b、qwen3.5:4b、gemma3:4b 都很强
追求速度	TranslateGemma:4b / gemma3:4b
正式文本 only	TranslateGemma:4b 或 hy-mt1.5:1.8b
显存 ≤4GB	qwen3.5:2b（通用） / translategemma:4b（翻译专项）

不推荐

模型	原因
phi3.5:3.8b	40% 废话率，翻译几乎不可用
mistral:7b	39% 废话率 + 28% 中文泄漏，双重灾难
gemma3:1b	速度极快但翻译质量太差（Swarm Market、Heaven Scroll）
hy-mt1.5:1.8b	专项模型但对黑话/口语输入不稳定，会拒绝翻译或回显原文

image1354×644 71.7 KB

9. 额外发现

在给模型的content内容开头加入<think></think>欺骗模型以及思考完成即可绕过思考，明显提升推理速度。

本测评的完整数据（1815 条翻译原始结果 JSON）：
results.json.zip (175.6 KB)

网友解答：

--【壹】--：

好的，等会补上

--【贰】--：

前排支持，不过GLOSSARY里的反重力怎么是A社啊

--【叁】--： 测评：自部署 Qwen3.5-0.8B 模型翻译能力详细评测悬赏

[PixPin_2026-03-08_13-03-05] [PixPin_2026-03-08_12-33-46] 一、安装部署步骤 1.1 环境准备 # 安装 Homebrew (如未安装) /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install…

墨子佬这边测过了

--【肆】--：

太强了，好详细的分析

--【伍】--：

CPU推理的

--【陆】--：

坐等测试 Qwen 3.5 小模型

--【柒】--：

qwen为啥不测3.5版本的

--【捌】--：

新模型正在测（）

--【玖】--：

怎么都是很老的模型？

--【拾】--：

claude：雾（）

--【拾壹】--：

还有一个需求就是模型审查，我测的那个版本是去掉审查的模型版本

--【拾贰】--：

感谢佬友，另外请问 Qwen 3.5 4B 适合做翻译吗

--【拾叁】--：

是干货支持

--【拾肆】--：

Ollama部署的都是guff的吧 Ollama还是不适合生产基本部署啊

--【拾伍】--：

ollama可以用内存做算力吗

--【拾陆】--：

比2.5强，看2.5结果便知

--【拾柒】--：

我建议还是测一下，不同人测的评价标准不一样，不好比较；要放在同一个评价标准下比较才更清晰

--【拾捌】--：

对啊，我看到结果感觉很疑惑。一看总榜单没有 3.5

--【拾玖】--：

感谢佬测评，尤其日语这块，看来小模型还是不够

标签：人工智能原创悬赏

1.测试环境与部署

硬件

软件

部署步骤

2.测试方法

2.1 测试集

2.2 翻译Prompt

2.3 评价方法

3.模型一览

主测试目标：最新一代模型

Baseline：上一代模型

4.速度排行

5. 翻译质量对比

5.1 L 站黑话翻译（英文）

5.2 标准翻译质量（正式内容）

5.3 UI 元素翻译

6. 关键指标分析

中文泄漏率（排除日语）

多余注释率/指令遵从

7. 不同语言翻译能力对比

中文泄漏率（按语言拆分）

多余注释率（按语言拆分）

各语言翻译质量概览

英语（最成熟）

日语（中等难度）

韩语（最难）

俄语（中等）

德语（表现最好的非英语语言）

8. 结论

综合评分榜

选型参考

个人建议

claude建议

分语言速查推荐

不推荐

9. 额外发现

相关推荐

1.测试环境与部署

硬件

软件

部署步骤

2.测试方法

2.1 测试集

2.2 翻译Prompt

2.3 评价方法

3.模型一览

主测试目标：最新一代模型

Baseline：上一代模型

4.速度排行

5. 翻译质量对比

5.1 L 站黑话翻译（英文）

5.2 标准翻译质量（正式内容）

5.3 UI 元素翻译

6. 关键指标分析

中文泄漏率（排除日语）

多余注释率/指令遵从

7. 不同语言翻译能力对比

中文泄漏率（按语言拆分）

多余注释率（按语言拆分）

各语言翻译质量概览

英语（最成熟）

日语（中等难度）

韩语（最难）

俄语（中等）

德语（表现最好的非英语语言）

8. 结论

综合评分榜

选型参考

个人建议

claude建议

分语言速查推荐

不推荐

9. 额外发现

相关推荐