本地部署小模型用于翻译任务,qwen系列小模型表现横评,及个人电脑本地部署方案
- 内容介绍
- 文章标签
- 相关推荐
前言
作为在读学生,前段时间经常在捣鼓本地部署翻译模型,恰逢始皇发布悬赏,终于有机会在大佬云集的L站发布第一篇自己研究的内容了,也算作是2级飞升3级的“毕业论文”了
image106×122 2.11 KB
翻译效果我个人觉得非常具有主观性,在意思正确的情况下有的人可能就喜欢更加简洁的,有的人就喜欢掰开揉碎的,没有一个标准就很难做最后的测试总结,包括我看之前别人对翻译模型的测评,也基本都有很强的主观色彩,或者干脆就把只要不是很拉胯的翻译都全部放出来让大家自己根据自己喜欢选择了,始皇是如此回答的
悬赏:自部署小模型对于翻译任务的能力测评准确性是第一位,其他不强求。
既然如此,那就是在意思传达正确的前提下,比较各模型的性能表现,以此推出以下的性能指标
性能指标
- 准确性:这里分为客观和主观,客观评价将使用GPT对翻译内容进行评估打分,主观则直接放出翻译内容,供用户自己选择喜欢的语言风格的模型使用。
鉴于L站走向世界的目标,鉴于对GPT中文一坨的考量,本次测试仅测试从zh→en的翻译效果,这样GPT的评价稍微还能令人信服( - 部署性能:这里为了简化,只提出两个指标,分别是模型使用显存大小和翻译速度
测试环境
| cpu | 9700x | ||
| 内存容量 | 32G | ||
| 显卡 | 5060ti16G | ||
| 系统 | windows10 | ||
| 部署软件 | LMstudio |
注意,这里不推荐ollama的原因是qwen模型尤其是qwen3.5的小参数模型很容易进入思考死循环,而ollama没有办法在被api调用时关闭思考,LMstudio关闭思考的方法下文会提到。
测试方法
首先是测试集,为了模拟真实翻译内容和效果,这里从公告、开发调优等等不同类别的话题选择比较热门并且不是特别短的作为本次测试的测试集
测试平台则是魔改了站内佬友的项目,原话题地址:hy-mt1.5 应该是最值得本地部署的翻译模型
下面是测试结果及分析
测试结果
首先是客观测试,将各模型的翻译内容交给GPT5.4thinking进行打分,结果如下:
image809×494 18.8 KB
| model | 成功 | 总耗时 | 吞吐量 | 显存峰值 |
|---|---|---|---|---|
| qwen2.5-1.5b-instruct | 601 | 90.710539 | 6.625471 | 2322.07 |
| qwen/qwen3-1.7b | 601 | 91.023484 | 6.602692 | 2456.07 |
| qwen3.5-0.8b | 601 | 107.839591 | 5.573092 | 2119.27 |
| qwen2.5-3b-instruct | 601 | 130.778876 | 4.595543 | 2628.07 |
| qwen/qwen3-4b | 601 | 147.614667 | 4.071411 | 3593.21 |
| qwen3.5-4b | 601 | 230.570207 | 2.606581 | 4630.41 |
可以看到,耗时和显存基本是正相关的,也和效果是正相关的,基本是一分钱一分货的状态~
下面是翻译的内容文件,仅作为主观选择材料:
result_multi_model_merged.csv (949.6 KB)
仍旧存在的问题:
1.我看到有佬友测试L站本身的一些ui的翻译,我觉得没有必要,让始皇做一套切换L站ui语言显然是更加准确和统一的,所以这里就只测试了对于翻译话题的效果
2.其次是术语的问题,即使是大模型,一些站内的 黑话 术语也不一定翻译的准确,沉浸式翻译是有术语库功能存在的,但是整理站内的术语又是一个不可忽视的难题,这里暂且贴出站内佬友的一部分总结
L站佬友常用简称和黑话总结 - 文档共建 / 文档共建, Lv1 - LINUX DO
3.本文只测试了qwen系列的几个小参数的模型,测试结果仅代表qwen系列的成绩
个人电脑本地部署方案推荐
上面提到过,使用qwen系列模型不推荐使用ollama本地部署,所以这里采用LMStudio+沉浸式翻译的组合
LMStudio: LM Studio - Local AI on your computer
沉浸式翻译: 沉浸式翻译 - 新一代AI翻译软件 | 双语对照网页翻译/PDF翻译/视频字幕翻译/漫画&图片翻译
安装就不过多赘述了,这里直接喂饭教你如何使用
image1200×1059 42.2 KB
这里首先点开设置,打开开发者模式
image1200×1059 56.9 KB
然后返回主页面,找到下载模型的地方,可以挑选你喜欢的模型进行下载
image1200×1059 101 KB
下载完成后,我们来到模型列表,如果你的qwen模型经常陷入思考循环,这里建议把思考模式关闭,在模版这里的最上方,添加一行
{%- set enable_thinking = false -%}
image1200×1059 64.8 KB
再回到主页面,点击开发者终端,start server就可以将你本地模型以api形式被别的地方调用了~
image1200×1059 67 KB
这里的默认地址是http://127.0.0.1:1234,作为调用的baseurl,apikey可以随便写或者不写,到这里LMStudio的基础使用就没问题了,下面介绍沉浸式翻译如何添加本地部署模型
首先进入设置页,选择翻译服务,点击添加自定义翻译服务,选自定义,改不改名都可以,因为是本地部署的模型,随便写一个apikey,模型名字一定要从LMStudio模型列表里复制默认标识符,不然可能会找不到你的模型,然后这里默认自定义 API 接口地址就填和我一样的就可以了,然后点击右上角的点此测试服务,有绿色的勾就代表测试成功了,然后设置为默认即可
image1310×1181 90 KB
至此,从测评到选择以及部署就全部结束了,撒花~
网友解答:--【壹】--:
我之前本地翻译视频字幕用的 qwen2.5 7b, 速度和质量感觉还行
--【贰】--:
我试试看
--【叁】--:
感谢佬友测评
--【肆】--:
有几个方法,我个人用的是reasoning_effort:none参数,在api里加.
--【伍】--:
支持一下~助力L站走向国际
--【陆】--:
但是沉浸式翻译没办法改api参数,ollama那边也只能在ollama里面使用模型的时候有关闭思考的命令,调用关不掉。。。
--【柒】--:
请教一下佬~
--【捌】--:
可以玩玩qwen3.5的35b a3b模型,内存显存一起用就是了。
--【玖】--:
感谢分享
--【拾】--:
太需要这样的评测了!
--【拾壹】--:
支持一下!
--【拾贰】--:
感谢佬的评测,很有用
--【拾叁】--:
前排支持!
--【拾肆】--:
推荐佬试dolphin3:8b~
我这边测评别的表现不错。
--【拾伍】--:
qwen系列的(源神针对不同场景有很多不同的模型)、腾讯hunyuan(这个基本用作翻译)、Gemma(谷歌的)、Llama等等,国外的不是很推荐,因为小参数国外模型对汉语的支持一般都很差,你自己本地玩的话基本就是等于在跟千问的各种小模型打交道,像deepseek那种大参数的模型个人本地根本没法玩的
--【拾陆】--:
感谢分享,请教一下佬友,我想学习本地ai的搭建,我的配置是16G的5070ti,64G内存和9800x3D,直接用ollama部署这个显存能跑的模型就行吗?有什么推荐的选择吗?
--【拾柒】--:
霍,这篇测评我从头到尾都看完了,写的很棒~~
--【拾捌】--:
明白了,感谢佬友
--【拾玖】--: jackport:
而ollama没有办法在被api调用时关闭思考
可以关闭的。
前言
作为在读学生,前段时间经常在捣鼓本地部署翻译模型,恰逢始皇发布悬赏,终于有机会在大佬云集的L站发布第一篇自己研究的内容了,也算作是2级飞升3级的“毕业论文”了
image106×122 2.11 KB
翻译效果我个人觉得非常具有主观性,在意思正确的情况下有的人可能就喜欢更加简洁的,有的人就喜欢掰开揉碎的,没有一个标准就很难做最后的测试总结,包括我看之前别人对翻译模型的测评,也基本都有很强的主观色彩,或者干脆就把只要不是很拉胯的翻译都全部放出来让大家自己根据自己喜欢选择了,始皇是如此回答的
悬赏:自部署小模型对于翻译任务的能力测评准确性是第一位,其他不强求。
既然如此,那就是在意思传达正确的前提下,比较各模型的性能表现,以此推出以下的性能指标
性能指标
- 准确性:这里分为客观和主观,客观评价将使用GPT对翻译内容进行评估打分,主观则直接放出翻译内容,供用户自己选择喜欢的语言风格的模型使用。
鉴于L站走向世界的目标,鉴于对GPT中文一坨的考量,本次测试仅测试从zh→en的翻译效果,这样GPT的评价稍微还能令人信服( - 部署性能:这里为了简化,只提出两个指标,分别是模型使用显存大小和翻译速度
测试环境
| cpu | 9700x | ||
| 内存容量 | 32G | ||
| 显卡 | 5060ti16G | ||
| 系统 | windows10 | ||
| 部署软件 | LMstudio |
注意,这里不推荐ollama的原因是qwen模型尤其是qwen3.5的小参数模型很容易进入思考死循环,而ollama没有办法在被api调用时关闭思考,LMstudio关闭思考的方法下文会提到。
测试方法
首先是测试集,为了模拟真实翻译内容和效果,这里从公告、开发调优等等不同类别的话题选择比较热门并且不是特别短的作为本次测试的测试集
测试平台则是魔改了站内佬友的项目,原话题地址:hy-mt1.5 应该是最值得本地部署的翻译模型
下面是测试结果及分析
测试结果
首先是客观测试,将各模型的翻译内容交给GPT5.4thinking进行打分,结果如下:
image809×494 18.8 KB
| model | 成功 | 总耗时 | 吞吐量 | 显存峰值 |
|---|---|---|---|---|
| qwen2.5-1.5b-instruct | 601 | 90.710539 | 6.625471 | 2322.07 |
| qwen/qwen3-1.7b | 601 | 91.023484 | 6.602692 | 2456.07 |
| qwen3.5-0.8b | 601 | 107.839591 | 5.573092 | 2119.27 |
| qwen2.5-3b-instruct | 601 | 130.778876 | 4.595543 | 2628.07 |
| qwen/qwen3-4b | 601 | 147.614667 | 4.071411 | 3593.21 |
| qwen3.5-4b | 601 | 230.570207 | 2.606581 | 4630.41 |
可以看到,耗时和显存基本是正相关的,也和效果是正相关的,基本是一分钱一分货的状态~
下面是翻译的内容文件,仅作为主观选择材料:
result_multi_model_merged.csv (949.6 KB)
仍旧存在的问题:
1.我看到有佬友测试L站本身的一些ui的翻译,我觉得没有必要,让始皇做一套切换L站ui语言显然是更加准确和统一的,所以这里就只测试了对于翻译话题的效果
2.其次是术语的问题,即使是大模型,一些站内的 黑话 术语也不一定翻译的准确,沉浸式翻译是有术语库功能存在的,但是整理站内的术语又是一个不可忽视的难题,这里暂且贴出站内佬友的一部分总结
L站佬友常用简称和黑话总结 - 文档共建 / 文档共建, Lv1 - LINUX DO
3.本文只测试了qwen系列的几个小参数的模型,测试结果仅代表qwen系列的成绩
个人电脑本地部署方案推荐
上面提到过,使用qwen系列模型不推荐使用ollama本地部署,所以这里采用LMStudio+沉浸式翻译的组合
LMStudio: LM Studio - Local AI on your computer
沉浸式翻译: 沉浸式翻译 - 新一代AI翻译软件 | 双语对照网页翻译/PDF翻译/视频字幕翻译/漫画&图片翻译
安装就不过多赘述了,这里直接喂饭教你如何使用
image1200×1059 42.2 KB
这里首先点开设置,打开开发者模式
image1200×1059 56.9 KB
然后返回主页面,找到下载模型的地方,可以挑选你喜欢的模型进行下载
image1200×1059 101 KB
下载完成后,我们来到模型列表,如果你的qwen模型经常陷入思考循环,这里建议把思考模式关闭,在模版这里的最上方,添加一行
{%- set enable_thinking = false -%}
image1200×1059 64.8 KB
再回到主页面,点击开发者终端,start server就可以将你本地模型以api形式被别的地方调用了~
image1200×1059 67 KB
这里的默认地址是http://127.0.0.1:1234,作为调用的baseurl,apikey可以随便写或者不写,到这里LMStudio的基础使用就没问题了,下面介绍沉浸式翻译如何添加本地部署模型
首先进入设置页,选择翻译服务,点击添加自定义翻译服务,选自定义,改不改名都可以,因为是本地部署的模型,随便写一个apikey,模型名字一定要从LMStudio模型列表里复制默认标识符,不然可能会找不到你的模型,然后这里默认自定义 API 接口地址就填和我一样的就可以了,然后点击右上角的点此测试服务,有绿色的勾就代表测试成功了,然后设置为默认即可
image1310×1181 90 KB
至此,从测评到选择以及部署就全部结束了,撒花~
网友解答:--【壹】--:
我之前本地翻译视频字幕用的 qwen2.5 7b, 速度和质量感觉还行
--【贰】--:
我试试看
--【叁】--:
感谢佬友测评
--【肆】--:
有几个方法,我个人用的是reasoning_effort:none参数,在api里加.
--【伍】--:
支持一下~助力L站走向国际
--【陆】--:
但是沉浸式翻译没办法改api参数,ollama那边也只能在ollama里面使用模型的时候有关闭思考的命令,调用关不掉。。。
--【柒】--:
请教一下佬~
--【捌】--:
可以玩玩qwen3.5的35b a3b模型,内存显存一起用就是了。
--【玖】--:
感谢分享
--【拾】--:
太需要这样的评测了!
--【拾壹】--:
支持一下!
--【拾贰】--:
感谢佬的评测,很有用
--【拾叁】--:
前排支持!
--【拾肆】--:
推荐佬试dolphin3:8b~
我这边测评别的表现不错。
--【拾伍】--:
qwen系列的(源神针对不同场景有很多不同的模型)、腾讯hunyuan(这个基本用作翻译)、Gemma(谷歌的)、Llama等等,国外的不是很推荐,因为小参数国外模型对汉语的支持一般都很差,你自己本地玩的话基本就是等于在跟千问的各种小模型打交道,像deepseek那种大参数的模型个人本地根本没法玩的
--【拾陆】--:
感谢分享,请教一下佬友,我想学习本地ai的搭建,我的配置是16G的5070ti,64G内存和9800x3D,直接用ollama部署这个显存能跑的模型就行吗?有什么推荐的选择吗?
--【拾柒】--:
霍,这篇测评我从头到尾都看完了,写的很棒~~
--【拾捌】--:
明白了,感谢佬友
--【拾玖】--: jackport:
而ollama没有办法在被api调用时关闭思考
可以关闭的。

