【迭代后处理】Handy-v0.8.1-Qwen3-ASR-with-Qwen3.5-Post-Processing-dev

2026-04-11 14:011阅读0评论SEO基础

内容介绍
文章标签
相关推荐

问题描述：

「20260401」
1、加入本地后处理，python+mlx，把qwen3.5的0.8B、2B、4B、9B，本地直接可用；
2、规范流程，暴露系统提示词、参数、转录与后处理的外置替换脚本（dev）；
3、参数、脚本未精调，有兴趣的佬可以测试

Screenshot 2026-04-01 at 01.22.431516×1130 148 KB
Screenshot 2026-04-01 at 01.22.271512×1128 152 KB
Screenshot 2026-04-01 at 15.49.461514×1140 222 KB
Screenshot 2026-04-01 at 15.49.351504×1136 168 KB

GitHub

Release Handy-v0.8.1-Qwen3-ASR-with-Qwen3.5-Post-Processing-dev ·...

Integrated local Qwen3-ASR (0.6B/1.7B) and Qwen3.5 small LLMs for ASR post-processing.

────────────────────────────────────────────────────

也可以用 @smilingpoplar 佬的rust版本（转录330ms）

GitHub

Release v0.8.1 · smilingpoplar/Handy

mlx模型只支持 macOS >= 14.0 使用

参考：
1、https://huggingface.co/mlx-community/models?search=qwen-3.5
2、GitHub - QwenLM/Qwen3-ASR-Toolkit: Official Python toolkit for the Qwen3-ASR API. Parallel high‑throughput calls, robust long‑audio transcription, multi‑sample‑rate support. · GitHub
3、Release v0.1.12 · BuildWithAIs/voicekey · GitHub
4、记录一些语音相关大模型的东西 | 语音识别(ASR), 文字转语音(TTS), 音色转换(STS)相关的项目

安装的时候注意：
1、macos，m系芯片，macos>=14.0；
2、下载安装转录/后处理模型有的时候可能卡住，在下载或者安装，烦请挂机等一会儿；
3、检测系统 python3，要求 >=3.11，系统没有合适 Python，就用内置 uv 自动拉 Python 3.11 并创建 .venv，uv用官方PyPI/清华源；
4、HF 镜像：默认先走 https://hf-mirror.com，失败自动回退https://huggingface.co

──────────────────────────

分割线，内容：20260305

Release Handy-0.7.9-Qwen3-ASR-0.6B-1.7B-8bit · ASR-Post-Process/Handy-Qwen3-ASR-0.6B-1.7B-8bit · GitHub

和codex折腾了一个下午，还好，做了一个自用替代？fork下来，打包了m系的版本，佬们可以测试下。

升级到了最新的Handy-0.7.9，顺手加了一个1.7B的进去^[1]。

不过这个模型就比较喜欢用中文。一些中英文相交杂的话，它实现的还行，但不喜欢输入阿拉伯数字，就比如零点六B和一点七B的一个模型。于是我打包的这个版本把转英文功能删掉了。

Screenshot 2026-03-05 at 20.23.451354×1130 145 KB

参考：
[1]我把Qwen3 ASR仍进了语音输入法，吊打Whisper，优化了转换速度 - #10，来自 fengchris （这个佬做的0.7.0版本的handy以及0.6B的模型）

[2]mlx-community/Qwen3-ASR-1.7B-8bit · Hugging Face

[3]Qwen3-ASR在粤英客服对话场景下的基准测试结果

[4]GitHub - cjpais/Handy: A free, open source, and extensible speech-to-text application that works completely offline. · GitHub （Handy原仓库）

[5]model: Add Qwen3-ASR batch transcription engine. by andrewleech · Pull Request #957 · cjpais/Handy · GitHub

Footnotes ↩︎

网友解答：

--【壹】--：

开源的本地吧，但也说不上多好，毕竟这个阿拉伯数字的识别，就比如说一二三四五六七这种东西，他会用中文。不过本地用的话，还是挺快的。

--【贰】--：

~/Library/Logs/com.pais.handy/handy.log

--【叁】--：

0%时在uv sync安装python环境，hf_hub_download查询模型元信息。可能是网络问题吧，这两步某一步失败，导致下载没启动。

--【肆】--：

不客气这个只是个临时fork的仓库

--【伍】--：

参照你的，用codex 改了一版 v0.8.1：

自带python环境
修复进度条显示
加快第一次转录

--【陆】--：

合适的"后处理"模型恐怕也不好找，要微调要收集边缘case。就比如中文数字转阿拉伯数字的功能，我试集成cn2an脚本，边缘情况就处理不好，“一些"变成"1些”。

--【柒】--：

用上了，转录速度都挺快的
官方PR也有关于千问ASR的加入，到时候可以等后续的正式版。

这个app缺点是没有一个可以直接在软件内部进行配置的本地「后处理」模型。
不需用API或者Ollama，而是直接集成一个小模型。可能未来有时间会去做一下。

不过现在豆包输入法内测版本出来了，我正在等它的正式版。

--【捌】--：

本地模型不一样吧，handy更快些。
然后闪电说拿api的教程挺方便的，功能也更丰富，有自动词库。

--【玖】--：

大佬太牛了

--【拾】--：

我看了下，查询模型元信息用了hf-mirror.com应该没访问问题。
很可能是uv sync下载依赖包失败了。

下一步我试试把python依赖去掉，改成rust实现。

--【拾壹】--：

是否支持自定义词库自动识别？

--【拾贰】--：

感谢佬的解答，祝你的repo早日高star

--【拾叁】--：

我看了看qwen-3.5的0.2、2、4B版本，把它作为一个后处理的本地模型，不知道怎么样。

huggingface.co

mlx-community (MLX Community)

Org profile for MLX Community on Hugging Face, the AI community building the future.

是的，你说的这些边缘情况存在。

我现在尝试着去搓一个直接集成
Screenshot 2026-03-28 at 22.01.441028×134 28.3 KB
保证速度的情况下，还要保证质量，得弄套prompt

--【拾肆】--：

请问下和闪电说的区别有什么呀？求救

--【拾伍】--：

这是目前最好的小于2B 的 ASR 模型吗？

--【拾陆】--：

请问一下哪里有日志能看吗

--【拾柒】--：

对的，这个依赖不支持macos13

╭─ ~/Library/Application Support/com.pais.handy/qwen3_asr_mlx 13:35:02 ─╮ ╰─❯ ./uv sync ─╯ Resolved 60 packages in 1.04s error: Distribution `mlx==0.30.6 @ registry+https://pypi.org/simple` can't be installed because it doesn't have a source distribution or wheel for the current platform hint: You're on macOS (`macosx_13_0_arm64`), but `mlx` (v0.30.6) only has wheels for the following platforms: `manylinux_2_35_aarch64`, `manylinux_2_35_x86_64`, `macosx_14_0_arm64`, `macosx_15_0_arm64`, `macosx_26_0_arm64`; consider adding "sys_platform == 'darwin' and platform_machine == 'arm64'" to `tool.uv.required-environments` to ensure uv resolves to a version with compatible wheels

--【拾捌】--：

handy不支持，只有手动添加

--【拾玖】--：

佬友，下载安装后，不能下载Qwen3-ASR，点击后进度条显示一会就没有了，0.6和1.7
都这样
图片1274×382 23.4 KB
显示这个等一会就没有了进度条了

标签：人工智能软件开发 ASR 后处理

问题描述：

GitHub

Release Handy-v0.8.1-Qwen3-ASR-with-Qwen3.5-Post-Processing-dev ·...

Integrated local Qwen3-ASR (0.6B/1.7B) and Qwen3.5 small LLMs for ASR post-processing.

────────────────────────────────────────────────────

也可以用 @smilingpoplar 佬的rust版本（转录330ms）

GitHub

Release v0.8.1 · smilingpoplar/Handy

mlx模型只支持 macOS >= 14.0 使用

──────────────────────────

分割线，内容：20260305

Release Handy-0.7.9-Qwen3-ASR-0.6B-1.7B-8bit · ASR-Post-Process/Handy-Qwen3-ASR-0.6B-1.7B-8bit · GitHub

和codex折腾了一个下午，还好，做了一个自用替代？fork下来，打包了m系的版本，佬们可以测试下。

升级到了最新的Handy-0.7.9，顺手加了一个1.7B的进去^[1]。

Screenshot 2026-03-05 at 20.23.451354×1130 145 KB

参考：
[1]我把Qwen3 ASR仍进了语音输入法，吊打Whisper，优化了转换速度 - #10，来自 fengchris （这个佬做的0.7.0版本的handy以及0.6B的模型）

[2]mlx-community/Qwen3-ASR-1.7B-8bit · Hugging Face

[3]Qwen3-ASR在粤英客服对话场景下的基准测试结果

[4]GitHub - cjpais/Handy: A free, open source, and extensible speech-to-text application that works completely offline. · GitHub （Handy原仓库）

[5]model: Add Qwen3-ASR batch transcription engine. by andrewleech · Pull Request #957 · cjpais/Handy · GitHub

Footnotes ↩︎

网友解答：

--【壹】--：

开源的本地吧，但也说不上多好，毕竟这个阿拉伯数字的识别，就比如说一二三四五六七这种东西，他会用中文。不过本地用的话，还是挺快的。

--【贰】--：

~/Library/Logs/com.pais.handy/handy.log

--【叁】--：

0%时在uv sync安装python环境，hf_hub_download查询模型元信息。可能是网络问题吧，这两步某一步失败，导致下载没启动。

--【肆】--：

不客气这个只是个临时fork的仓库

--【伍】--：

参照你的，用codex 改了一版 v0.8.1：

自带python环境
修复进度条显示
加快第一次转录

--【陆】--：

--【柒】--：

用上了，转录速度都挺快的
官方PR也有关于千问ASR的加入，到时候可以等后续的正式版。

不过现在豆包输入法内测版本出来了，我正在等它的正式版。

--【捌】--：

本地模型不一样吧，handy更快些。
然后闪电说拿api的教程挺方便的，功能也更丰富，有自动词库。

--【玖】--：

大佬太牛了

--【拾】--：

我看了下，查询模型元信息用了hf-mirror.com应该没访问问题。
很可能是uv sync下载依赖包失败了。

下一步我试试把python依赖去掉，改成rust实现。

--【拾壹】--：

是否支持自定义词库自动识别？

--【拾贰】--：

感谢佬的解答，祝你的repo早日高star

--【拾叁】--：

我看了看qwen-3.5的0.2、2、4B版本，把它作为一个后处理的本地模型，不知道怎么样。

huggingface.co

mlx-community (MLX Community)

Org profile for MLX Community on Hugging Face, the AI community building the future.

是的，你说的这些边缘情况存在。

我现在尝试着去搓一个直接集成
Screenshot 2026-03-28 at 22.01.441028×134 28.3 KB
保证速度的情况下，还要保证质量，得弄套prompt

--【拾肆】--：

请问下和闪电说的区别有什么呀？求救

--【拾伍】--：

这是目前最好的小于2B 的 ASR 模型吗？

--【拾陆】--：

请问一下哪里有日志能看吗

--【拾柒】--：

对的，这个依赖不支持macos13

--【拾捌】--：

handy不支持，只有手动添加

--【拾玖】--：

佬友，下载安装后，不能下载Qwen3-ASR，点击后进度条显示一会就没有了，0.6和1.7
都这样
图片1274×382 23.4 KB
显示这个等一会就没有了进度条了

标签：人工智能软件开发 ASR 后处理

Release Handy-v0.8.1-Qwen3-ASR-with-Qwen3.5-Post-Processing-dev ·...

Release v0.8.1 · smilingpoplar/Handy

mlx-community (MLX Community)

相关推荐

Release Handy-v0.8.1-Qwen3-ASR-with-Qwen3.5-Post-Processing-dev ·...

Release v0.8.1 · smilingpoplar/Handy

mlx-community (MLX Community)

相关推荐