自部署小模型翻译能力横评:12 款 ≤7B 模型 × 5 种语言 × LINUX DO 真实内容,TranslateGemma 4B 登顶
- 内容介绍
- 文章标签
- 相关推荐
从悬赏:自部署小模型对于翻译任务的能力测评继续。
本文测评在M4的Mac Mini上通过Ollama本地部署完成,覆盖 12 款模型、5 种目标语言和 12 类论坛内容,共 1980 条翻译。
太长不看,可以直接去文末看结论。
1.测试环境与部署
硬件
| 项目 | 配置 |
|---|---|
| 设备 | Apple Silicon Mac(arm64) |
| 内存 | 16 GB 统一内存 |
| 系统 | macOS 26.3.1 |
软件
| 项目 | 版本/说明 |
|---|---|
| 推理引擎 | Ollama 0.17.7 |
| 量化格式 | 默认 Q4_K_M(Ollama 自动选择) |
| API | Ollama REST API(/api/generate,HY-MT 使用 /api/chat) |
| 推理参数 | temperature=0.1(通用模型)/ temperature=0.7, top_k=20, top_p=0.6(HY-MT 官方推荐参数) |
部署步骤
# 1. 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 2. 拉取模型(以 qwen2.5:3b 为例)
ollama pull qwen2.5:3b
# 3. 测试翻译
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5:3b",
"prompt": "Translate to English. Output ONLY the translation:\n\n开发调优",
"stream": false
}'
HY-MT 需要额外步骤:
# 下载 GGUF 权重
curl -L "https://huggingface.co/tencent/HY-MT1.5-1.8B-GGUF/resolve/main/HY-MT1.5-1.8B-Q4_K_M.gguf" \
-o hy-mt.gguf
# 创建 Modelfile
cat > Modelfile << 'EOF'
FROM ./hy-mt.gguf
TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
{{ end }}{{ .Response }}<|im_end|>
"""
PARAMETER temperature 0.7
PARAMETER top_k 20
PARAMETER top_p 0.6
PARAMETER repeat_penalty 1.05
PARAMETER stop "<|im_end|>"
EOF
ollama create hy-mt1.5:1.8b -f Modelfile
2.测试方法
2.1 测试集
为保证内容多样,提升结果可参考性,我从论坛的UI界面,不同分类的帖子标题、内容和回应中采集了33条样本,覆盖12个内容类别:
| 类别 | 数量 | 说明 |
|---|---|---|
| UI-分类名 | 5 | 开发调优、福利羊毛、搞七捻三、前沿快讯、跳蚤市场 |
| UI-分类描述 | 3 | 版块介绍文字 |
| UI-标签 | 4 | 人工智能、薅羊毛、精华神帖、快问快答 |
| UI-界面文字 | 4 | 话题、我的帖子、打开高级搜索、编辑边栏类别 |
| 标题-技术 | 3 | 开源工具、切号问题、仓库开发 |
| 标题-闲聊 | 3 | openclaw、炒股、挖野菜 |
| 标题-黑话 | 4 | 龙虾、降智、邀请码、小龙虾 |
| 标题-福利 | 3 | 爽蹬、车位、家庭组 |
| 正文-正式公告 | 1 | L站国际化公告(长文) |
| 正文-技术讨论 | 1 | LLM 自部署经验(含技术术语) |
| 正文-口语黑话 | 1 | 反重力 opus + 小龙虾(密集黑话) |
| 正文-交易帖 | 1 | ChatGPT Plus 出号 + 车位拼车 |
2.2 翻译Prompt
Translate the following Chinese text to {language}. Output ONLY the translation, nothing else.
{text}
2.3 评价方法
鉴于翻译的主要目标是面向用户提升阅读体验,因此本次测试中我没有设计和选用学术风格的测试指标来进行结果的量化,而是使用高级模型代替人类专家进行多维度翻译结果评价的方式来评判。模型选择最会说人话的claude-opus-4-6,评价维度包括但不限于:
- 准确性:原意是否传达正确
- 流畅度:目标语言是否自然通顺
- 指令遵从:是否只输出翻译、不附加注释
- 中文残留:输出中是否残留中文字符
- 黑话处理:论坛特有表达的翻译策略
- 速度:吞吐量(tokens/s)和响应时间
3.模型一览
主测试目标:最新一代模型
| 模型 | 参数量 | 文件大小 | 类型 |
|---|---|---|---|
| Gemma 3 1B | 1B | 815 MB | Google 最新小模型 |
| Gemma 3 4B | 4B | 3.3 GB | Google 最新中等模型 |
| TranslateGemma 4B | 4B | 3.3 GB | Google 专项翻译模型(基于 Gemma 3) |
| Qwen 3.5 2B | 2B | 2.7 GB | 阿里最新(带 thinking) |
| Qwen 3.5 4B | 4B | 3.4 GB | 阿里最新(带 thinking) |
| HY-MT 1.5 1.8B | 1.8B | 1.1 GB | 专项翻译模型 |
Baseline:上一代模型
| 模型 | 参数量 | 文件大小 |
|---|---|---|
| Qwen 2.5 3B | 3B | 1.9 GB |
| Qwen 2.5 7B | 7B | 4.7 GB |
| Gemma 2 2B | 2B | 1.6 GB |
| Llama 3.2 3B | 3B | 2.0 GB |
| Phi 3.5 3.8B | 3.8B | 2.2 GB |
| Mistral 7B | 7B | 4.4 GB |
关于 Llama 4:最小版本是 Scout 16×17B(109B 激活参数),远超 ≤7B 限制,不纳入本次测试。
4.速度排行
| 排名 | 模型 | 平均速度 | 总耗时 | 备注 |
|---|---|---|---|---|
| gemma3:1b | 106.4 tok/s | 81s | 极快,但质量堪忧 | |
| hy-mt1.5:1.8b | 76.7 tok/s | ~90s | 专项翻译,速度优秀 | |
| gemma2:2b | 61.5 tok/s | ~120s | 上代小模型 | |
| 4 | qwen2.5:3b | 54.2 tok/s | ~140s | 上代主力 |
| 5 | llama3.2:3b | 50.9 tok/s | ~180s | |
| 6 | phi3.5:3.8b | 44.9 tok/s | ~350s | 废话多导致慢 |
| 7 | translategemma:4b | 42.2 tok/s | 181s | Google 专项翻译 |
| 8 | gemma3:4b | 40.9 tok/s | 216s | 新一代 |
| 9 | qwen3.5:2b | 36.6 tok/s | 179s | 需关 thinking |
| 10 | qwen2.5:7b | 24.1 tok/s | ~320s | |
| 11 | mistral:7b | 23.4 tok/s | ~370s | 废话多导致慢 |
| 12 | qwen3.5:4b | 21.4 tok/s | 323s | 需关 thinking |
5. 翻译质量对比
5.1 L 站黑话翻译(英文)
“gpt team 车位 2 个”
上下文:“车位” = 拼车/共享订阅名额
| 模型 | 翻译 |
|---|---|
| qwen3.5:4b | GPT Team: 2 parking spaces available. |
| qwen3.5:2b | GPT Team parking spaces: 2 available. |
| qwen2.5:3b | GPT team has 2 spots |
| gemma3:4b | gpt team parking spots 2 |
| gemma3:1b | Parking space 2 |
| mistral:7b | Parking spot: 2 (+ 附带一段机翻免责声明) |
发现:所有模型都把 “车位” 直译成了 parking space/spot——这是 L 站特有黑话(指订阅拼车名额),小模型无法理解这层语境。
“薅羊毛”(标签)
| 模型 | 翻译 | 评价 |
|---|---|---|
| qwen3.5:2b | Scraping for freebies | 最佳,精准传达含义 |
| qwen2.5:7b | Free ride | 语义偏移 |
| qwen2.5:3b | Scamming or Fraud | 含义歪了 |
| gemma3:4b | Shave the sheep (+ 解释) | 直译 |
| gemma3:1b | Steal sheep’s wool | 直译 |
| llama3.2:3b | Sheep combing | |
| phi3.5:3.8b | Grow wool | 完全反了 |
“精华神帖”(标签)
| 模型 | 翻译 |
|---|---|
| gemma3:4b | Essential posts |
| qwen3.5:2b | Essential Wisdom Post |
| qwen2.5:3b | Essence Hot Topic |
| gemma3:1b | The Essence of Heaven Scroll |
| gemma2:2b | Essence of the Divine Scrolls |
| llama3.2:3b | Essence of the Divine Record |
5.2 标准翻译质量(正式内容)
在标准正式内容上,各模型差距缩小。以 L 站国际化公告为例(长文翻译),qwen3.5:4b、qwen2.5:7b、mistral:7b 表现较好,gemma3:1b 最差。
5.3 UI 元素翻译
| 原文 | 最佳翻译 | 翻车案例 |
|---|---|---|
| 跳蚤市场 | Flea market(多数模型正确) | gemma3:1b → Swarm Market;mistral:7b → Bed Bug Market |
| 搞七捻三 | confused and disordered (qwen3.5:4b) | gemma3:1b → “Let’s do seven twists three” |
| 快问快答 | Quick Q&A (多数正确) | gemma3:4b(日语) → “はい、はい。”(???) |
6. 关键指标分析
中文泄漏率(排除日语)
翻译成非中文语言时,输出中仍残留中文字符的比例:
| 模型 | 泄漏率 | 评价 |
|---|---|---|
| hy-mt1.5:1.8b | 1.5% | 最低 |
| qwen3.5:4b | 3.0% | 优秀 |
| qwen3.5:2b | 6.8% | 良好 |
| gemma3:4b | 9.1% | 中等 |
| gemma2:2b | 11.4% | |
| gemma3:1b | 13.6% | |
| phi3.5:3.8b | 17.4% | |
| qwen2.5:3b | 18.2% | |
| qwen2.5:7b | 20.5% | 7B 还不如 2B |
| llama3.2:3b | 22.0% | |
| mistral:7b | 28.0% | 最差 |
意外发现:qwen2.5:7b 的中文泄漏率竟然比 qwen2.5:3b 还高。Qwen 3.5 在这方面有巨大进步。
多余注释率/指令遵从
模型不老实翻译,非要加一段 “Note: this is a…” 解释的比例,一定程度反映了模型的指令遵从能力:
| 模型 | 废话率 |
|---|---|
| qwen3.5:2b / 4b | 0.0% |
| qwen2.5:3b / 7b | ~0.6% |
| gemma3:1b / 4b | 1.2% |
| hy-mt1.5:1.8b | 1.2% |
| phi3.5:3.8b | 40.6% |
| mistral:7b | 39.4% |
phi3.5 和 mistral 严重不适合翻译任务——近 40% 的输出都附带了多余的注释、解释或免责声明,直接导致翻译不可用。
7. 不同语言翻译能力对比
不同语言的翻译难度差异巨大。以下是各模型在 5 种目标语言上的分项表现。
中文泄漏率(按语言拆分)
中文泄漏是衡量翻译"干净度"的核心指标——输出中不应该残留中文字符。
| 模型 | 英语 | 韩语 | 俄语 | 德语 |
|---|---|---|---|---|
| hy-mt1.5:1.8b | 0% | 0% | 0% | 6% |
| translategemma:4b | 0% | 18% | 3% | 3% |
| qwen3.5:4b | 3% | 3% | 3% | 3% |
| qwen3.5:2b | 3% | 15% | 9% | 0% |
| gemma3:4b | 3% | 18% | 9% | 6% |
| gemma3:1b | 21% | 12% | 15% | 6% |
| qwen2.5:3b | 9% | 33% | 30% | 0% |
| qwen2.5:7b | 24% | 39% | 18% | 0% |
| llama3.2:3b | 3% | 64% | 21% | 0% |
| mistral:7b | 6% | 52% | 30% | 24% |
关键发现:
- 韩语是重灾区:llama3.2 64%、mistral 52%、qwen2.5:7b 39% 的输出混有中文。小模型普遍不擅长中→韩翻译
- 德语最干净:多数模型在德语上零泄漏或极低泄漏
- 英语虽然泄漏率低,但 qwen2.5:7b 反而比 3b 还差(24% vs 9%)
- qwen3.5:4b 是唯一在所有语言上都 ≤3% 的模型
多余注释率(按语言拆分)
phi3.5 和 mistral 的"废话"问题在日韩语上特别严重:
| 模型 | 英语 | 日语 | 韩语 | 俄语 | 德语 |
|---|---|---|---|---|---|
| qwen3.5:2b / 4b | 0 | 0 | 0 | 0 | 0 |
| translategemma:4b | 1 | 0 | 0 | 0 | 0 |
| gemma3:4b | 2 | 0 | 0 | 0 | 1 |
| phi3.5:3.8b | 4 | 21 | 14 | 15 | 15 |
| mistral:7b | 5 | 23 | 16 | 14 | 15 |
phi3.5 和 mistral 在日语翻译上有 60-70% 的输出附带多余注释,完全不可用。
各语言翻译质量概览
英语(最成熟)
英语翻译是所有模型的强项,整体差距最小。
- 最佳:qwen3.5:4b ≈ qwen3.5:2b ≈ gemma3:4b
- 基本所有模型都能产出可读的英文翻译
- 主要区别在于:中文泄漏(qwen2.5 系列偏高)和废话率(phi3.5/mistral)
日语(中等难度)
日语因为共享汉字,情况比较特殊——中文泄漏不易检测,但翻译准确度差异大。
「跳蚤市场」→ 日语
| 模型 | 翻译 | 评价 |
|---|---|---|
| gemma3:4b | 蚤の市 | 地道 |
| translategemma:4b | フリーマーケット | 正确(外来语) |
| gemma3:1b | 蚤市 | 省略了「の」 |
| qwen3.5:4b | ヤード・セール | 这是「garage sale」 |
| qwen3.5:2b | ジャンボマーケ | 乱翻 |
「搞七捻三」→ 日语
| 模型 | 翻译 | 评价 |
|---|---|---|
| qwen3.5:4b | (输出了一段解释而非翻译) | 废话 |
| gemma3:4b | 搞七捻三 | 直接回显原文 |
| qwen2.5:3b | 七つ折る |
- 最佳:gemma3:4b(UI 短词地道)和 qwen3.5:4b(长文流畅)、translategemma:4b(标准翻译准确)
- 最差:phi3.5 / mistral(60-70% 废话率)
- gemma3:4b 在日语 UI 短词上有优势(如 蚤の市、人工知能),但长文不如 qwen3.5
韩语(最难)
韩语是本次测试中翻译质量最差的语言——所有模型都大面积翻车。
「跳蚤市场」→ 韩语
| 模型 | 翻译 | 评价 |
|---|---|---|
| gemma3:4b | 벼룩시장 | 正确 |
| translategemma:4b | 벼룩시장 | 正确 |
| qwen3.5:4b | 개구리 시장 | 青蛙市场 |
| qwen3.5:2b | 파티마켓 | 派对市场 |
| gemma3:1b | 시장 장수동 | |
| qwen2.5:3b | flea market | 输出了英文 |
「薅羊毛」→ 韩语
| 模型 | 翻译 | 评价 |
|---|---|---|
| qwen3.5:4b | 양모 뽑기 | 字面直译 |
| gemma3:4b | 털을 뽑다 | 字面直译 |
| qwen2.5:3b | 薅羊毛 | 直接回显中文 |
- 最佳:gemma3:4b 和 translategemma:4b(韩语 UI 短词均正确)
- 中文泄漏极其严重:llama3.2 64%、mistral 52%
- qwen3.5:4b 虽然韩语泄漏低(3%),但翻译准确度不如 gemma3:4b
- 结论:韩语翻译需要 >7B 模型或专项韩语模型
俄语(中等)
俄语翻译质量居中,主要问题是中文泄漏和直译。
「跳蚤市场」→ 俄语
| 模型 | 翻译 | 评价 |
|---|---|---|
| translategemma:4b | Блошиный рынок | 地道 |
| qwen3.5:4b | Рынок блошек | 可理解但不地道 |
| gemma3:4b | Рынок объявлений | 广告市场(偏了) |
| gemma3:1b | Дроздный рынок | 鸫鸟市场? |
| qwen2.5:3b | flea market | 输出了英文 |
- 最佳:qwen3.5:4b(泄漏低、质量稳定)
- hy-mt1.5 在正式俄语文本上表现突出(零泄漏)
- qwen2.5 系列和 mistral 泄漏率高达 30%
德语(表现最好的非英语语言)
德语是英语之外翻译质量最高的语言。
「跳蚤市场」→ 德语
| 模型 | 翻译 | 评价 |
|---|---|---|
| qwen3.5:4b | Flohmärkte | 正确(复数) |
| gemma3:4b | Flohmarkt | 正确 |
| gemma3:1b | Markt der Mücken | 蚊子市场 |
| qwen3.5:2b | Börse | 交易所 |
- 最佳:qwen3.5:4b ≈ gemma3:4b
- 中文泄漏率普遍很低
- 主要问题集中在黑话和俗语的直译上
8. 结论
综合评分榜
综合速度、中文泄漏率、废话率、可靠性和翻译准确度,五维评分(满分 100):
| 排名 | 模型 | 总分 | 速度 | 泄漏 | 废话 | 可靠 | 准确 | 一句话点评 |
|---|---|---|---|---|---|---|---|---|
| translategemma:4b | 90.0 | 12.1 | 15.2 | 14.8 | 10.0 | 38.0 | 专项翻译模型,很强 | |
| qwen3.5:4b | 88.0 | 10.0 | 17.6 | 15.0 | 10.0 | 35.4 | 综合极强,全语言泄漏≤3% | |
| gemma3:4b | 84.2 | 12.0 | 12.7 | 14.3 | 10.0 | 35.2 | 开箱即用,韩语最强 | |
| 4 | qwen3.5:2b | 81.0 | 11.6 | 14.5 | 15.0 | 10.0 | 29.9 | 轻量首选,英德语优秀 |
| 5 | gemma2:2b | 70.6 | 13.3 | 10.9 | 14.8 | 7.6 | 24.1 | 上代小模型还能打 |
| 6 | gemma3:1b | 68.4 | 15.0 | 9.1 | 14.3 | 10.0 | 20.1 | 极速但翻译质量差 |
| 7 | hy-mt1.5:1.8b | 68.3 | 14.0 | 18.8 | 14.5 | 0.3 | 20.7 | 泄漏最低,但黑话崩 |
| 8 | qwen2.5:7b | 65.6 | 10.4 | 3.6 | 14.8 | 10.0 | 26.9 | 参数多不一定好 |
| 9 | qwen2.5:3b | 65.4 | 12.9 | 5.5 | 14.8 | 10.0 | 22.3 | 速度不错但泄漏高 |
| 10 | llama3.2:3b | 57.1 | 12.7 | 2.4 | 14.8 | 5.2 | 22.1 | 韩语泄漏 64% |
| 11 | phi3.5:3.8b | 41.6 | 12.3 | 6.1 | 0.0 | 5.2 | 18.1 | 42% 废话率,不可用 |
| 12 | mistral:7b | 37.5 | 10.3 | 0.0 | 0.0 | 10.0 | 17.3 | 44% 废话 + 28% 泄漏 |
评分维度说明:
- 速度(15 分):推理吞吐量,对数归一化
- 泄漏(20 分):中文泄漏率越低越好,按英/韩/俄/德四语平均
- 废话(15 分):多余注释/解释率越低越好
- 可靠(10 分):翻译错误、超时率越低越好
- 准确(40 分):自动校验 + 人工质量评估,权重最高
选型参考
个人建议
[!success]
- 对于论坛黑话,提供术语表供模型参考,微调感觉对小模型效果不一定好,且缺少高质量数据集
- 不同场景,不同类型帖子,不同目标语言选择不同模型
- 开始测试该功能时采用A/B test模式,给不同用户返回不同模型的翻译结果,供用户评价,按照评价选择不同类型帖子,不同场景下的最佳适配模型
claude建议
image1324×1254 146 KB
分语言速查推荐
| 使用场景 | 推荐方案 |
|---|---|
| 英语翻译 | TranslateGemma:4b 或 qwen3.5:4b |
| 日语翻译 | TranslateGemma:4b / gemma3:4b(UI 短词) / qwen3.5:4b(长文) |
| 韩语翻译 | TranslateGemma:4b 或 gemma3:4b;qwen3.5:4b 不建议主用 |
| 俄语翻译 | TranslateGemma:4b 首选;正式文本可用 hy-mt1.5 |
| 德语翻译 | TranslateGemma:4b、qwen3.5:4b、gemma3:4b 都很强 |
| 追求速度 | TranslateGemma:4b / gemma3:4b |
| 正式文本 only | TranslateGemma:4b 或 hy-mt1.5:1.8b |
| 显存 ≤4GB | qwen3.5:2b(通用) / translategemma:4b(翻译专项) |
不推荐
| 模型 | 原因 |
|---|---|
| phi3.5:3.8b | 40% 废话率,翻译几乎不可用 |
| mistral:7b | 39% 废话率 + 28% 中文泄漏,双重灾难 |
| gemma3:1b | 速度极快但翻译质量太差(Swarm Market、Heaven Scroll) |
| hy-mt1.5:1.8b | 专项模型但对黑话/口语输入不稳定,会拒绝翻译或回显原文 |
image1354×644 71.7 KB
9. 额外发现
在测评 Qwen3.5系列模型的时候,遇到了模型自带思考无法关闭的情况,去网上找了相关的解决方案,有很多种,例如加参数等等,有些是无效的。最终尝试的有效方案如下:
在给模型的content内容开头加入<think></think>欺骗模型以及思考完成即可绕过思考,明显提升推理速度。
本测评的完整数据(1815 条翻译原始结果 JSON):
results.json.zip (175.6 KB)
测评环境:Apple Silicon Mac 16GB / Ollama 0.17.7 / 2026.03.08
测评和文章大部分由OpenClaw完成,部分段落(如图表等)为了保证可读性,未使用截图方式,请见谅!
--【壹】--:
好的,等会补上
--【贰】--:
前排支持,不过GLOSSARY里的反重力怎么是A社啊
--【叁】--: 测评:自部署 Qwen3.5-0.8B 模型翻译能力详细评测 悬赏
[PixPin_2026-03-08_13-03-05] [PixPin_2026-03-08_12-33-46] 一、安装部署步骤 1.1 环境准备 # 安装 Homebrew (如未安装) /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install…
墨子佬这边测过了
--【肆】--:
太强了,好详细的分析
--【伍】--:
CPU推理的
--【陆】--:
坐等测试 Qwen 3.5 小模型
--【柒】--:
qwen为啥不测3.5版本的
--【捌】--:
新模型正在测()
--【玖】--:
怎么都是很老的模型?
--【拾】--:
claude:雾()
--【拾壹】--:
还有一个需求就是模型审查,我测的那个版本是去掉审查的模型版本
--【拾贰】--:
感谢佬友,另外请问 Qwen 3.5 4B 适合做翻译吗
--【拾叁】--:
是干货 支持
--【拾肆】--:
Ollama部署的 都是guff的吧 Ollama还是不适合生产基本部署啊
--【拾伍】--:
ollama可以用内存做算力吗
--【拾陆】--:
比2.5强,看2.5结果便知
--【拾柒】--:
我建议还是测一下,不同人测的评价标准不一样,不好比较;要放在同一个评价标准下比较才更清晰
--【拾捌】--:
对啊,我看到结果感觉很疑惑。一看总榜单没有 3.5
--【拾玖】--:
感谢佬测评,尤其日语这块,看来小模型还是不够
从悬赏:自部署小模型对于翻译任务的能力测评继续。
本文测评在M4的Mac Mini上通过Ollama本地部署完成,覆盖 12 款模型、5 种目标语言和 12 类论坛内容,共 1980 条翻译。
太长不看,可以直接去文末看结论。
1.测试环境与部署
硬件
| 项目 | 配置 |
|---|---|
| 设备 | Apple Silicon Mac(arm64) |
| 内存 | 16 GB 统一内存 |
| 系统 | macOS 26.3.1 |
软件
| 项目 | 版本/说明 |
|---|---|
| 推理引擎 | Ollama 0.17.7 |
| 量化格式 | 默认 Q4_K_M(Ollama 自动选择) |
| API | Ollama REST API(/api/generate,HY-MT 使用 /api/chat) |
| 推理参数 | temperature=0.1(通用模型)/ temperature=0.7, top_k=20, top_p=0.6(HY-MT 官方推荐参数) |
部署步骤
# 1. 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 2. 拉取模型(以 qwen2.5:3b 为例)
ollama pull qwen2.5:3b
# 3. 测试翻译
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5:3b",
"prompt": "Translate to English. Output ONLY the translation:\n\n开发调优",
"stream": false
}'
HY-MT 需要额外步骤:
# 下载 GGUF 权重
curl -L "https://huggingface.co/tencent/HY-MT1.5-1.8B-GGUF/resolve/main/HY-MT1.5-1.8B-Q4_K_M.gguf" \
-o hy-mt.gguf
# 创建 Modelfile
cat > Modelfile << 'EOF'
FROM ./hy-mt.gguf
TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
{{ end }}{{ .Response }}<|im_end|>
"""
PARAMETER temperature 0.7
PARAMETER top_k 20
PARAMETER top_p 0.6
PARAMETER repeat_penalty 1.05
PARAMETER stop "<|im_end|>"
EOF
ollama create hy-mt1.5:1.8b -f Modelfile
2.测试方法
2.1 测试集
为保证内容多样,提升结果可参考性,我从论坛的UI界面,不同分类的帖子标题、内容和回应中采集了33条样本,覆盖12个内容类别:
| 类别 | 数量 | 说明 |
|---|---|---|
| UI-分类名 | 5 | 开发调优、福利羊毛、搞七捻三、前沿快讯、跳蚤市场 |
| UI-分类描述 | 3 | 版块介绍文字 |
| UI-标签 | 4 | 人工智能、薅羊毛、精华神帖、快问快答 |
| UI-界面文字 | 4 | 话题、我的帖子、打开高级搜索、编辑边栏类别 |
| 标题-技术 | 3 | 开源工具、切号问题、仓库开发 |
| 标题-闲聊 | 3 | openclaw、炒股、挖野菜 |
| 标题-黑话 | 4 | 龙虾、降智、邀请码、小龙虾 |
| 标题-福利 | 3 | 爽蹬、车位、家庭组 |
| 正文-正式公告 | 1 | L站国际化公告(长文) |
| 正文-技术讨论 | 1 | LLM 自部署经验(含技术术语) |
| 正文-口语黑话 | 1 | 反重力 opus + 小龙虾(密集黑话) |
| 正文-交易帖 | 1 | ChatGPT Plus 出号 + 车位拼车 |
2.2 翻译Prompt
Translate the following Chinese text to {language}. Output ONLY the translation, nothing else.
{text}
2.3 评价方法
鉴于翻译的主要目标是面向用户提升阅读体验,因此本次测试中我没有设计和选用学术风格的测试指标来进行结果的量化,而是使用高级模型代替人类专家进行多维度翻译结果评价的方式来评判。模型选择最会说人话的claude-opus-4-6,评价维度包括但不限于:
- 准确性:原意是否传达正确
- 流畅度:目标语言是否自然通顺
- 指令遵从:是否只输出翻译、不附加注释
- 中文残留:输出中是否残留中文字符
- 黑话处理:论坛特有表达的翻译策略
- 速度:吞吐量(tokens/s)和响应时间
3.模型一览
主测试目标:最新一代模型
| 模型 | 参数量 | 文件大小 | 类型 |
|---|---|---|---|
| Gemma 3 1B | 1B | 815 MB | Google 最新小模型 |
| Gemma 3 4B | 4B | 3.3 GB | Google 最新中等模型 |
| TranslateGemma 4B | 4B | 3.3 GB | Google 专项翻译模型(基于 Gemma 3) |
| Qwen 3.5 2B | 2B | 2.7 GB | 阿里最新(带 thinking) |
| Qwen 3.5 4B | 4B | 3.4 GB | 阿里最新(带 thinking) |
| HY-MT 1.5 1.8B | 1.8B | 1.1 GB | 专项翻译模型 |
Baseline:上一代模型
| 模型 | 参数量 | 文件大小 |
|---|---|---|
| Qwen 2.5 3B | 3B | 1.9 GB |
| Qwen 2.5 7B | 7B | 4.7 GB |
| Gemma 2 2B | 2B | 1.6 GB |
| Llama 3.2 3B | 3B | 2.0 GB |
| Phi 3.5 3.8B | 3.8B | 2.2 GB |
| Mistral 7B | 7B | 4.4 GB |
关于 Llama 4:最小版本是 Scout 16×17B(109B 激活参数),远超 ≤7B 限制,不纳入本次测试。
4.速度排行
| 排名 | 模型 | 平均速度 | 总耗时 | 备注 |
|---|---|---|---|---|
| gemma3:1b | 106.4 tok/s | 81s | 极快,但质量堪忧 | |
| hy-mt1.5:1.8b | 76.7 tok/s | ~90s | 专项翻译,速度优秀 | |
| gemma2:2b | 61.5 tok/s | ~120s | 上代小模型 | |
| 4 | qwen2.5:3b | 54.2 tok/s | ~140s | 上代主力 |
| 5 | llama3.2:3b | 50.9 tok/s | ~180s | |
| 6 | phi3.5:3.8b | 44.9 tok/s | ~350s | 废话多导致慢 |
| 7 | translategemma:4b | 42.2 tok/s | 181s | Google 专项翻译 |
| 8 | gemma3:4b | 40.9 tok/s | 216s | 新一代 |
| 9 | qwen3.5:2b | 36.6 tok/s | 179s | 需关 thinking |
| 10 | qwen2.5:7b | 24.1 tok/s | ~320s | |
| 11 | mistral:7b | 23.4 tok/s | ~370s | 废话多导致慢 |
| 12 | qwen3.5:4b | 21.4 tok/s | 323s | 需关 thinking |
5. 翻译质量对比
5.1 L 站黑话翻译(英文)
“gpt team 车位 2 个”
上下文:“车位” = 拼车/共享订阅名额
| 模型 | 翻译 |
|---|---|
| qwen3.5:4b | GPT Team: 2 parking spaces available. |
| qwen3.5:2b | GPT Team parking spaces: 2 available. |
| qwen2.5:3b | GPT team has 2 spots |
| gemma3:4b | gpt team parking spots 2 |
| gemma3:1b | Parking space 2 |
| mistral:7b | Parking spot: 2 (+ 附带一段机翻免责声明) |
发现:所有模型都把 “车位” 直译成了 parking space/spot——这是 L 站特有黑话(指订阅拼车名额),小模型无法理解这层语境。
“薅羊毛”(标签)
| 模型 | 翻译 | 评价 |
|---|---|---|
| qwen3.5:2b | Scraping for freebies | 最佳,精准传达含义 |
| qwen2.5:7b | Free ride | 语义偏移 |
| qwen2.5:3b | Scamming or Fraud | 含义歪了 |
| gemma3:4b | Shave the sheep (+ 解释) | 直译 |
| gemma3:1b | Steal sheep’s wool | 直译 |
| llama3.2:3b | Sheep combing | |
| phi3.5:3.8b | Grow wool | 完全反了 |
“精华神帖”(标签)
| 模型 | 翻译 |
|---|---|
| gemma3:4b | Essential posts |
| qwen3.5:2b | Essential Wisdom Post |
| qwen2.5:3b | Essence Hot Topic |
| gemma3:1b | The Essence of Heaven Scroll |
| gemma2:2b | Essence of the Divine Scrolls |
| llama3.2:3b | Essence of the Divine Record |
5.2 标准翻译质量(正式内容)
在标准正式内容上,各模型差距缩小。以 L 站国际化公告为例(长文翻译),qwen3.5:4b、qwen2.5:7b、mistral:7b 表现较好,gemma3:1b 最差。
5.3 UI 元素翻译
| 原文 | 最佳翻译 | 翻车案例 |
|---|---|---|
| 跳蚤市场 | Flea market(多数模型正确) | gemma3:1b → Swarm Market;mistral:7b → Bed Bug Market |
| 搞七捻三 | confused and disordered (qwen3.5:4b) | gemma3:1b → “Let’s do seven twists three” |
| 快问快答 | Quick Q&A (多数正确) | gemma3:4b(日语) → “はい、はい。”(???) |
6. 关键指标分析
中文泄漏率(排除日语)
翻译成非中文语言时,输出中仍残留中文字符的比例:
| 模型 | 泄漏率 | 评价 |
|---|---|---|
| hy-mt1.5:1.8b | 1.5% | 最低 |
| qwen3.5:4b | 3.0% | 优秀 |
| qwen3.5:2b | 6.8% | 良好 |
| gemma3:4b | 9.1% | 中等 |
| gemma2:2b | 11.4% | |
| gemma3:1b | 13.6% | |
| phi3.5:3.8b | 17.4% | |
| qwen2.5:3b | 18.2% | |
| qwen2.5:7b | 20.5% | 7B 还不如 2B |
| llama3.2:3b | 22.0% | |
| mistral:7b | 28.0% | 最差 |
意外发现:qwen2.5:7b 的中文泄漏率竟然比 qwen2.5:3b 还高。Qwen 3.5 在这方面有巨大进步。
多余注释率/指令遵从
模型不老实翻译,非要加一段 “Note: this is a…” 解释的比例,一定程度反映了模型的指令遵从能力:
| 模型 | 废话率 |
|---|---|
| qwen3.5:2b / 4b | 0.0% |
| qwen2.5:3b / 7b | ~0.6% |
| gemma3:1b / 4b | 1.2% |
| hy-mt1.5:1.8b | 1.2% |
| phi3.5:3.8b | 40.6% |
| mistral:7b | 39.4% |
phi3.5 和 mistral 严重不适合翻译任务——近 40% 的输出都附带了多余的注释、解释或免责声明,直接导致翻译不可用。
7. 不同语言翻译能力对比
不同语言的翻译难度差异巨大。以下是各模型在 5 种目标语言上的分项表现。
中文泄漏率(按语言拆分)
中文泄漏是衡量翻译"干净度"的核心指标——输出中不应该残留中文字符。
| 模型 | 英语 | 韩语 | 俄语 | 德语 |
|---|---|---|---|---|
| hy-mt1.5:1.8b | 0% | 0% | 0% | 6% |
| translategemma:4b | 0% | 18% | 3% | 3% |
| qwen3.5:4b | 3% | 3% | 3% | 3% |
| qwen3.5:2b | 3% | 15% | 9% | 0% |
| gemma3:4b | 3% | 18% | 9% | 6% |
| gemma3:1b | 21% | 12% | 15% | 6% |
| qwen2.5:3b | 9% | 33% | 30% | 0% |
| qwen2.5:7b | 24% | 39% | 18% | 0% |
| llama3.2:3b | 3% | 64% | 21% | 0% |
| mistral:7b | 6% | 52% | 30% | 24% |
关键发现:
- 韩语是重灾区:llama3.2 64%、mistral 52%、qwen2.5:7b 39% 的输出混有中文。小模型普遍不擅长中→韩翻译
- 德语最干净:多数模型在德语上零泄漏或极低泄漏
- 英语虽然泄漏率低,但 qwen2.5:7b 反而比 3b 还差(24% vs 9%)
- qwen3.5:4b 是唯一在所有语言上都 ≤3% 的模型
多余注释率(按语言拆分)
phi3.5 和 mistral 的"废话"问题在日韩语上特别严重:
| 模型 | 英语 | 日语 | 韩语 | 俄语 | 德语 |
|---|---|---|---|---|---|
| qwen3.5:2b / 4b | 0 | 0 | 0 | 0 | 0 |
| translategemma:4b | 1 | 0 | 0 | 0 | 0 |
| gemma3:4b | 2 | 0 | 0 | 0 | 1 |
| phi3.5:3.8b | 4 | 21 | 14 | 15 | 15 |
| mistral:7b | 5 | 23 | 16 | 14 | 15 |
phi3.5 和 mistral 在日语翻译上有 60-70% 的输出附带多余注释,完全不可用。
各语言翻译质量概览
英语(最成熟)
英语翻译是所有模型的强项,整体差距最小。
- 最佳:qwen3.5:4b ≈ qwen3.5:2b ≈ gemma3:4b
- 基本所有模型都能产出可读的英文翻译
- 主要区别在于:中文泄漏(qwen2.5 系列偏高)和废话率(phi3.5/mistral)
日语(中等难度)
日语因为共享汉字,情况比较特殊——中文泄漏不易检测,但翻译准确度差异大。
「跳蚤市场」→ 日语
| 模型 | 翻译 | 评价 |
|---|---|---|
| gemma3:4b | 蚤の市 | 地道 |
| translategemma:4b | フリーマーケット | 正确(外来语) |
| gemma3:1b | 蚤市 | 省略了「の」 |
| qwen3.5:4b | ヤード・セール | 这是「garage sale」 |
| qwen3.5:2b | ジャンボマーケ | 乱翻 |
「搞七捻三」→ 日语
| 模型 | 翻译 | 评价 |
|---|---|---|
| qwen3.5:4b | (输出了一段解释而非翻译) | 废话 |
| gemma3:4b | 搞七捻三 | 直接回显原文 |
| qwen2.5:3b | 七つ折る |
- 最佳:gemma3:4b(UI 短词地道)和 qwen3.5:4b(长文流畅)、translategemma:4b(标准翻译准确)
- 最差:phi3.5 / mistral(60-70% 废话率)
- gemma3:4b 在日语 UI 短词上有优势(如 蚤の市、人工知能),但长文不如 qwen3.5
韩语(最难)
韩语是本次测试中翻译质量最差的语言——所有模型都大面积翻车。
「跳蚤市场」→ 韩语
| 模型 | 翻译 | 评价 |
|---|---|---|
| gemma3:4b | 벼룩시장 | 正确 |
| translategemma:4b | 벼룩시장 | 正确 |
| qwen3.5:4b | 개구리 시장 | 青蛙市场 |
| qwen3.5:2b | 파티마켓 | 派对市场 |
| gemma3:1b | 시장 장수동 | |
| qwen2.5:3b | flea market | 输出了英文 |
「薅羊毛」→ 韩语
| 模型 | 翻译 | 评价 |
|---|---|---|
| qwen3.5:4b | 양모 뽑기 | 字面直译 |
| gemma3:4b | 털을 뽑다 | 字面直译 |
| qwen2.5:3b | 薅羊毛 | 直接回显中文 |
- 最佳:gemma3:4b 和 translategemma:4b(韩语 UI 短词均正确)
- 中文泄漏极其严重:llama3.2 64%、mistral 52%
- qwen3.5:4b 虽然韩语泄漏低(3%),但翻译准确度不如 gemma3:4b
- 结论:韩语翻译需要 >7B 模型或专项韩语模型
俄语(中等)
俄语翻译质量居中,主要问题是中文泄漏和直译。
「跳蚤市场」→ 俄语
| 模型 | 翻译 | 评价 |
|---|---|---|
| translategemma:4b | Блошиный рынок | 地道 |
| qwen3.5:4b | Рынок блошек | 可理解但不地道 |
| gemma3:4b | Рынок объявлений | 广告市场(偏了) |
| gemma3:1b | Дроздный рынок | 鸫鸟市场? |
| qwen2.5:3b | flea market | 输出了英文 |
- 最佳:qwen3.5:4b(泄漏低、质量稳定)
- hy-mt1.5 在正式俄语文本上表现突出(零泄漏)
- qwen2.5 系列和 mistral 泄漏率高达 30%
德语(表现最好的非英语语言)
德语是英语之外翻译质量最高的语言。
「跳蚤市场」→ 德语
| 模型 | 翻译 | 评价 |
|---|---|---|
| qwen3.5:4b | Flohmärkte | 正确(复数) |
| gemma3:4b | Flohmarkt | 正确 |
| gemma3:1b | Markt der Mücken | 蚊子市场 |
| qwen3.5:2b | Börse | 交易所 |
- 最佳:qwen3.5:4b ≈ gemma3:4b
- 中文泄漏率普遍很低
- 主要问题集中在黑话和俗语的直译上
8. 结论
综合评分榜
综合速度、中文泄漏率、废话率、可靠性和翻译准确度,五维评分(满分 100):
| 排名 | 模型 | 总分 | 速度 | 泄漏 | 废话 | 可靠 | 准确 | 一句话点评 |
|---|---|---|---|---|---|---|---|---|
| translategemma:4b | 90.0 | 12.1 | 15.2 | 14.8 | 10.0 | 38.0 | 专项翻译模型,很强 | |
| qwen3.5:4b | 88.0 | 10.0 | 17.6 | 15.0 | 10.0 | 35.4 | 综合极强,全语言泄漏≤3% | |
| gemma3:4b | 84.2 | 12.0 | 12.7 | 14.3 | 10.0 | 35.2 | 开箱即用,韩语最强 | |
| 4 | qwen3.5:2b | 81.0 | 11.6 | 14.5 | 15.0 | 10.0 | 29.9 | 轻量首选,英德语优秀 |
| 5 | gemma2:2b | 70.6 | 13.3 | 10.9 | 14.8 | 7.6 | 24.1 | 上代小模型还能打 |
| 6 | gemma3:1b | 68.4 | 15.0 | 9.1 | 14.3 | 10.0 | 20.1 | 极速但翻译质量差 |
| 7 | hy-mt1.5:1.8b | 68.3 | 14.0 | 18.8 | 14.5 | 0.3 | 20.7 | 泄漏最低,但黑话崩 |
| 8 | qwen2.5:7b | 65.6 | 10.4 | 3.6 | 14.8 | 10.0 | 26.9 | 参数多不一定好 |
| 9 | qwen2.5:3b | 65.4 | 12.9 | 5.5 | 14.8 | 10.0 | 22.3 | 速度不错但泄漏高 |
| 10 | llama3.2:3b | 57.1 | 12.7 | 2.4 | 14.8 | 5.2 | 22.1 | 韩语泄漏 64% |
| 11 | phi3.5:3.8b | 41.6 | 12.3 | 6.1 | 0.0 | 5.2 | 18.1 | 42% 废话率,不可用 |
| 12 | mistral:7b | 37.5 | 10.3 | 0.0 | 0.0 | 10.0 | 17.3 | 44% 废话 + 28% 泄漏 |
评分维度说明:
- 速度(15 分):推理吞吐量,对数归一化
- 泄漏(20 分):中文泄漏率越低越好,按英/韩/俄/德四语平均
- 废话(15 分):多余注释/解释率越低越好
- 可靠(10 分):翻译错误、超时率越低越好
- 准确(40 分):自动校验 + 人工质量评估,权重最高
选型参考
个人建议
[!success]
- 对于论坛黑话,提供术语表供模型参考,微调感觉对小模型效果不一定好,且缺少高质量数据集
- 不同场景,不同类型帖子,不同目标语言选择不同模型
- 开始测试该功能时采用A/B test模式,给不同用户返回不同模型的翻译结果,供用户评价,按照评价选择不同类型帖子,不同场景下的最佳适配模型
claude建议
image1324×1254 146 KB
分语言速查推荐
| 使用场景 | 推荐方案 |
|---|---|
| 英语翻译 | TranslateGemma:4b 或 qwen3.5:4b |
| 日语翻译 | TranslateGemma:4b / gemma3:4b(UI 短词) / qwen3.5:4b(长文) |
| 韩语翻译 | TranslateGemma:4b 或 gemma3:4b;qwen3.5:4b 不建议主用 |
| 俄语翻译 | TranslateGemma:4b 首选;正式文本可用 hy-mt1.5 |
| 德语翻译 | TranslateGemma:4b、qwen3.5:4b、gemma3:4b 都很强 |
| 追求速度 | TranslateGemma:4b / gemma3:4b |
| 正式文本 only | TranslateGemma:4b 或 hy-mt1.5:1.8b |
| 显存 ≤4GB | qwen3.5:2b(通用) / translategemma:4b(翻译专项) |
不推荐
| 模型 | 原因 |
|---|---|
| phi3.5:3.8b | 40% 废话率,翻译几乎不可用 |
| mistral:7b | 39% 废话率 + 28% 中文泄漏,双重灾难 |
| gemma3:1b | 速度极快但翻译质量太差(Swarm Market、Heaven Scroll) |
| hy-mt1.5:1.8b | 专项模型但对黑话/口语输入不稳定,会拒绝翻译或回显原文 |
image1354×644 71.7 KB
9. 额外发现
在测评 Qwen3.5系列模型的时候,遇到了模型自带思考无法关闭的情况,去网上找了相关的解决方案,有很多种,例如加参数等等,有些是无效的。最终尝试的有效方案如下:
在给模型的content内容开头加入<think></think>欺骗模型以及思考完成即可绕过思考,明显提升推理速度。
本测评的完整数据(1815 条翻译原始结果 JSON):
results.json.zip (175.6 KB)
测评环境:Apple Silicon Mac 16GB / Ollama 0.17.7 / 2026.03.08
测评和文章大部分由OpenClaw完成,部分段落(如图表等)为了保证可读性,未使用截图方式,请见谅!
--【壹】--:
好的,等会补上
--【贰】--:
前排支持,不过GLOSSARY里的反重力怎么是A社啊
--【叁】--: 测评:自部署 Qwen3.5-0.8B 模型翻译能力详细评测 悬赏
[PixPin_2026-03-08_13-03-05] [PixPin_2026-03-08_12-33-46] 一、安装部署步骤 1.1 环境准备 # 安装 Homebrew (如未安装) /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install…
墨子佬这边测过了
--【肆】--:
太强了,好详细的分析
--【伍】--:
CPU推理的
--【陆】--:
坐等测试 Qwen 3.5 小模型
--【柒】--:
qwen为啥不测3.5版本的
--【捌】--:
新模型正在测()
--【玖】--:
怎么都是很老的模型?
--【拾】--:
claude:雾()
--【拾壹】--:
还有一个需求就是模型审查,我测的那个版本是去掉审查的模型版本
--【拾贰】--:
感谢佬友,另外请问 Qwen 3.5 4B 适合做翻译吗
--【拾叁】--:
是干货 支持
--【拾肆】--:
Ollama部署的 都是guff的吧 Ollama还是不适合生产基本部署啊
--【拾伍】--:
ollama可以用内存做算力吗
--【拾陆】--:
比2.5强,看2.5结果便知
--【拾柒】--:
我建议还是测一下,不同人测的评价标准不一样,不好比较;要放在同一个评价标准下比较才更清晰
--【拾捌】--:
对啊,我看到结果感觉很疑惑。一看总榜单没有 3.5
--【拾玖】--:
感谢佬测评,尤其日语这块,看来小模型还是不够

