【迭代后处理】Handy-v0.8.1-Qwen3-ASR-with-Qwen3.5-Post-Processing-dev
- 内容介绍
- 文章标签
- 相关推荐
「20260401」
1、加入本地后处理,python+mlx,把qwen3.5的0.8B、2B、4B、9B,本地直接可用;
2、规范流程,暴露系统提示词、参数、转录与后处理的外置替换脚本(dev);
3、参数、脚本未精调,有兴趣的佬可以测试
Screenshot 2026-04-01 at 01.22.431516×1130 148 KB
Screenshot 2026-04-01 at 01.22.271512×1128 152 KB
Screenshot 2026-04-01 at 15.49.461514×1140 222 KB
Screenshot 2026-04-01 at 15.49.351504×1136 168 KB
Release Handy-v0.8.1-Qwen3-ASR-with-Qwen3.5-Post-Processing-dev ·...
Integrated local Qwen3-ASR (0.6B/1.7B) and Qwen3.5 small LLMs for ASR post-processing.
────────────────────────────────────────────────────
也可以用 @smilingpoplar 佬的rust版本(转录330ms)
Release v0.8.1 · smilingpoplar/Handy
mlx模型只支持 macOS >= 14.0 使用
参考:
1、https://huggingface.co/mlx-community/models?search=qwen-3.5
2、GitHub - QwenLM/Qwen3-ASR-Toolkit: Official Python toolkit for the Qwen3-ASR API. Parallel high‑throughput calls, robust long‑audio transcription, multi‑sample‑rate support. · GitHub
3、Release v0.1.12 · BuildWithAIs/voicekey · GitHub
4、记录一些语音相关大模型的东西 | 语音识别(ASR), 文字转语音(TTS), 音色转换(STS)相关的项目
安装的时候注意:
1、macos,m系芯片,macos>=14.0;
2、下载安装转录/后处理模型有的时候可能卡住,在下载或者安装,烦请挂机等一会儿;
3、检测系统 python3,要求 >=3.11,系统没有合适 Python,就用内置 uv 自动拉 Python 3.11 并创建 .venv,uv用官方PyPI/清华源;
4、HF 镜像:默认先走 https://hf-mirror.com,失败自动回退https://huggingface.co
──────────────────────────
分割线,内容:20260305
Release Handy-0.7.9-Qwen3-ASR-0.6B-1.7B-8bit · ASR-Post-Process/Handy-Qwen3-ASR-0.6B-1.7B-8bit · GitHub
和codex折腾了一个下午,还好,做了一个自用替代?fork下来,打包了m系的版本,佬们可以测试下。
升级到了最新的Handy-0.7.9,顺手加了一个1.7B的进去[1]。
不过这个模型就比较喜欢用中文。一些中英文相交杂的话,它实现的还行,但不喜欢输入阿拉伯数字,就比如零点六B和一点七B的一个模型。于是我打包的这个版本把转英文功能删掉了。
Screenshot 2026-03-05 at 20.23.451354×1130 145 KB
参考:
[1]我把Qwen3 ASR仍进了语音输入法,吊打Whisper,优化了转换速度 - #10,来自 fengchris (这个佬做的0.7.0版本的handy以及0.6B的模型)
[2]mlx-community/Qwen3-ASR-1.7B-8bit · Hugging Face
[3]Qwen3-ASR在粤英客服对话场景下的基准测试结果
[4]GitHub - cjpais/Handy: A free, open source, and extensible speech-to-text application that works completely offline. · GitHub (Handy原仓库)
[5]model: Add Qwen3-ASR batch transcription engine. by andrewleech · Pull Request #957 · cjpais/Handy · GitHub
Footnotes ↩︎
--【壹】--:
开源的本地吧,但也说不上多好,毕竟这个阿拉伯数字的识别,就比如说一二三四五六七这种东西,他会用中文。不过本地用的话,还是挺快的。
--【贰】--:
~/Library/Logs/com.pais.handy/handy.log
--【叁】--:
0%时在uv sync安装python环境,hf_hub_download查询模型元信息。可能是网络问题吧,这两步某一步失败,导致下载没启动。
--【肆】--:
不客气 这个只是个临时fork的仓库
--【伍】--:
参照你的,用codex 改了一版 v0.8.1:
- 自带python环境
- 修复进度条显示
- 加快第一次转录
--【陆】--:
合适的"后处理"模型恐怕也不好找,要微调要收集边缘case。就比如中文数字转阿拉伯数字的功能,我试集成cn2an脚本,边缘情况就处理不好,“一些"变成"1些”。
--【柒】--:
用上了,转录速度都挺快的
官方PR也有关于千问ASR的加入,到时候可以等后续的正式版。
这个app缺点是没有一个可以直接在软件内部进行配置的本地「后处理」模型。
不需用API或者Ollama,而是直接集成一个小模型。可能未来有时间会去做一下。
不过现在豆包输入法内测版本出来了,我正在等它的正式版。
--【捌】--:
本地模型不一样吧,handy更快些。
然后闪电说拿api的教程挺方便的,功能也更丰富,有自动词库。
--【玖】--:
大佬太牛了
--【拾】--:
我看了下,查询模型元信息用了hf-mirror.com应该没访问问题。
很可能是uv sync下载依赖包失败了。
下一步我试试把python依赖去掉,改成rust实现。
--【拾壹】--:
是否支持自定义词库自动识别?
--【拾贰】--:
感谢佬的解答,祝你的repo早日高star
--【拾叁】--:
我看了看qwen-3.5的0.2、2、4B版本,把它作为一个后处理的本地模型,不知道怎么样。
mlx-community (MLX Community)
Org profile for MLX Community on Hugging Face, the AI community building the future.
是的,你说的这些边缘情况存在。
我现在尝试着去搓一个直接集成
Screenshot 2026-03-28 at 22.01.441028×134 28.3 KB
保证速度的情况下,还要保证质量,得弄套prompt
--【拾肆】--:
请问下和闪电说的区别有什么呀?求救
--【拾伍】--:
这是目前最好的 小于2B 的 ASR 模型吗?
--【拾陆】--:
请问一下哪里有日志能看吗
--【拾柒】--:
对的,这个依赖不支持macos13
╭─ ~/Library/Application Support/com.pais.handy/qwen3_asr_mlx 13:35:02 ─╮
╰─❯ ./uv sync ─╯
Resolved 60 packages in 1.04s
error: Distribution `mlx==0.30.6 @ registry+https://pypi.org/simple` can't be installed because it doesn't have a source distribution or wheel for the current platform
hint: You're on macOS (`macosx_13_0_arm64`), but `mlx` (v0.30.6) only has wheels for the following platforms: `manylinux_2_35_aarch64`, `manylinux_2_35_x86_64`, `macosx_14_0_arm64`, `macosx_15_0_arm64`, `macosx_26_0_arm64`; consider adding "sys_platform == 'darwin' and platform_machine == 'arm64'" to `tool.uv.required-environments` to ensure uv resolves to a version with compatible wheels
--【拾捌】--:
handy不支持,只有手动添加
--【拾玖】--:
佬友,下载安装后,不能下载Qwen3-ASR,点击后进度条显示一会就没有了,0.6和1.7
都这样
图片1274×382 23.4 KB
显示这个等一会就没有了进度条了
「20260401」
1、加入本地后处理,python+mlx,把qwen3.5的0.8B、2B、4B、9B,本地直接可用;
2、规范流程,暴露系统提示词、参数、转录与后处理的外置替换脚本(dev);
3、参数、脚本未精调,有兴趣的佬可以测试
Screenshot 2026-04-01 at 01.22.431516×1130 148 KB
Screenshot 2026-04-01 at 01.22.271512×1128 152 KB
Screenshot 2026-04-01 at 15.49.461514×1140 222 KB
Screenshot 2026-04-01 at 15.49.351504×1136 168 KB
Release Handy-v0.8.1-Qwen3-ASR-with-Qwen3.5-Post-Processing-dev ·...
Integrated local Qwen3-ASR (0.6B/1.7B) and Qwen3.5 small LLMs for ASR post-processing.
────────────────────────────────────────────────────
也可以用 @smilingpoplar 佬的rust版本(转录330ms)
Release v0.8.1 · smilingpoplar/Handy
mlx模型只支持 macOS >= 14.0 使用
参考:
1、https://huggingface.co/mlx-community/models?search=qwen-3.5
2、GitHub - QwenLM/Qwen3-ASR-Toolkit: Official Python toolkit for the Qwen3-ASR API. Parallel high‑throughput calls, robust long‑audio transcription, multi‑sample‑rate support. · GitHub
3、Release v0.1.12 · BuildWithAIs/voicekey · GitHub
4、记录一些语音相关大模型的东西 | 语音识别(ASR), 文字转语音(TTS), 音色转换(STS)相关的项目
安装的时候注意:
1、macos,m系芯片,macos>=14.0;
2、下载安装转录/后处理模型有的时候可能卡住,在下载或者安装,烦请挂机等一会儿;
3、检测系统 python3,要求 >=3.11,系统没有合适 Python,就用内置 uv 自动拉 Python 3.11 并创建 .venv,uv用官方PyPI/清华源;
4、HF 镜像:默认先走 https://hf-mirror.com,失败自动回退https://huggingface.co
──────────────────────────
分割线,内容:20260305
Release Handy-0.7.9-Qwen3-ASR-0.6B-1.7B-8bit · ASR-Post-Process/Handy-Qwen3-ASR-0.6B-1.7B-8bit · GitHub
和codex折腾了一个下午,还好,做了一个自用替代?fork下来,打包了m系的版本,佬们可以测试下。
升级到了最新的Handy-0.7.9,顺手加了一个1.7B的进去[1]。
不过这个模型就比较喜欢用中文。一些中英文相交杂的话,它实现的还行,但不喜欢输入阿拉伯数字,就比如零点六B和一点七B的一个模型。于是我打包的这个版本把转英文功能删掉了。
Screenshot 2026-03-05 at 20.23.451354×1130 145 KB
参考:
[1]我把Qwen3 ASR仍进了语音输入法,吊打Whisper,优化了转换速度 - #10,来自 fengchris (这个佬做的0.7.0版本的handy以及0.6B的模型)
[2]mlx-community/Qwen3-ASR-1.7B-8bit · Hugging Face
[3]Qwen3-ASR在粤英客服对话场景下的基准测试结果
[4]GitHub - cjpais/Handy: A free, open source, and extensible speech-to-text application that works completely offline. · GitHub (Handy原仓库)
[5]model: Add Qwen3-ASR batch transcription engine. by andrewleech · Pull Request #957 · cjpais/Handy · GitHub
Footnotes ↩︎
--【壹】--:
开源的本地吧,但也说不上多好,毕竟这个阿拉伯数字的识别,就比如说一二三四五六七这种东西,他会用中文。不过本地用的话,还是挺快的。
--【贰】--:
~/Library/Logs/com.pais.handy/handy.log
--【叁】--:
0%时在uv sync安装python环境,hf_hub_download查询模型元信息。可能是网络问题吧,这两步某一步失败,导致下载没启动。
--【肆】--:
不客气 这个只是个临时fork的仓库
--【伍】--:
参照你的,用codex 改了一版 v0.8.1:
- 自带python环境
- 修复进度条显示
- 加快第一次转录
--【陆】--:
合适的"后处理"模型恐怕也不好找,要微调要收集边缘case。就比如中文数字转阿拉伯数字的功能,我试集成cn2an脚本,边缘情况就处理不好,“一些"变成"1些”。
--【柒】--:
用上了,转录速度都挺快的
官方PR也有关于千问ASR的加入,到时候可以等后续的正式版。
这个app缺点是没有一个可以直接在软件内部进行配置的本地「后处理」模型。
不需用API或者Ollama,而是直接集成一个小模型。可能未来有时间会去做一下。
不过现在豆包输入法内测版本出来了,我正在等它的正式版。
--【捌】--:
本地模型不一样吧,handy更快些。
然后闪电说拿api的教程挺方便的,功能也更丰富,有自动词库。
--【玖】--:
大佬太牛了
--【拾】--:
我看了下,查询模型元信息用了hf-mirror.com应该没访问问题。
很可能是uv sync下载依赖包失败了。
下一步我试试把python依赖去掉,改成rust实现。
--【拾壹】--:
是否支持自定义词库自动识别?
--【拾贰】--:
感谢佬的解答,祝你的repo早日高star
--【拾叁】--:
我看了看qwen-3.5的0.2、2、4B版本,把它作为一个后处理的本地模型,不知道怎么样。
mlx-community (MLX Community)
Org profile for MLX Community on Hugging Face, the AI community building the future.
是的,你说的这些边缘情况存在。
我现在尝试着去搓一个直接集成
Screenshot 2026-03-28 at 22.01.441028×134 28.3 KB
保证速度的情况下,还要保证质量,得弄套prompt
--【拾肆】--:
请问下和闪电说的区别有什么呀?求救
--【拾伍】--:
这是目前最好的 小于2B 的 ASR 模型吗?
--【拾陆】--:
请问一下哪里有日志能看吗
--【拾柒】--:
对的,这个依赖不支持macos13
╭─ ~/Library/Application Support/com.pais.handy/qwen3_asr_mlx 13:35:02 ─╮
╰─❯ ./uv sync ─╯
Resolved 60 packages in 1.04s
error: Distribution `mlx==0.30.6 @ registry+https://pypi.org/simple` can't be installed because it doesn't have a source distribution or wheel for the current platform
hint: You're on macOS (`macosx_13_0_arm64`), but `mlx` (v0.30.6) only has wheels for the following platforms: `manylinux_2_35_aarch64`, `manylinux_2_35_x86_64`, `macosx_14_0_arm64`, `macosx_15_0_arm64`, `macosx_26_0_arm64`; consider adding "sys_platform == 'darwin' and platform_machine == 'arm64'" to `tool.uv.required-environments` to ensure uv resolves to a version with compatible wheels
--【拾捌】--:
handy不支持,只有手动添加
--【拾玖】--:
佬友,下载安装后,不能下载Qwen3-ASR,点击后进度条显示一会就没有了,0.6和1.7
都这样
图片1274×382 23.4 KB
显示这个等一会就没有了进度条了

