Qwen3-ASR正式开源语音识别新标杆

2026-04-11 13:211阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

官方博客：Qwen

今天，我们正式开源Qwen3-ASR系列语音识别模型：
Qwen3-ASR-1.7B：高精度全场景识别模型
Qwen3-ASR-0.6B：高性能轻量级模型
Qwen3-ForcedAligner-0.6B：强制对齐模型

核心技术创新
基于自研AuT语音编码器与Qwen3-Omni多模态基座，Qwen3-ASR实现了端到端语音理解能力的显著突破，单模型即可支持52个语种与方言的自动识别与转写，其中1.7B版本覆盖30种语言及22种中文方言与口音。模型采用流式与非流式推理一体化设计，单次最长可处理20分钟音频，并引入基于非自回归LLM推理架构的强制对齐模型，支持11种语言任意位置的时间戳精准预测，单并发实时因子（RTF）低至0.0089，兼顾高精度与低延迟。

Qwen3-ASR-1.7B性能表现
Qwen3-ASR-1.7B在多项基准测试中达到开源领域最优水平：中文方言识别的词错误率（WER）较主流商用API平均降低20%；在覆盖16个国家的英文口音测试集上，全面优于GPT-4o Transcribe、Gemini及Whisper-large-v3；在歌唱场景中，中英文WER分别低至13.91%与14.60%，并支持带背景音乐的整首歌曲转写，在高噪声、混响等复杂声学环境下仍保持稳定可靠的输出质量。

Qwen3-ASR-0.6B效率优势
Qwen3-ASR-0.6B在效率与精度之间实现优异平衡，单并发RTF低于0.01，1秒内可转写约2分钟音频；在128并发异步服务场景下吞吐量提升达2000倍，10秒即可处理5小时音频内容；其中英文基准测试表现稳健，特别适合对响应速度与资源成本敏感的高并发生产环境部署。

模型	语种支持	方言支持	推理模式	音频种类支持
Qwen3-ASR-1.7B & Qwen3-ASR-0.6B	中文，英语，粤语，阿拉伯语，德语，法语，西班牙语，葡萄牙语，印尼语，意大利语，韩语，俄语，泰语，越南语，日语，土耳其语，印地语，马来语，荷兰语，瑞典语，丹麦语，芬兰语，波兰语，捷克语，菲律宾语，波斯语，希腊语，匈牙利语，马其顿语，罗马尼亚语	安徽，东北，福建，甘肃，贵州，河北，河南，湖北，湖南，江西，宁夏，山东，山西，陕西，四川，天津，云南，浙江，粤语（香港口音）, 粤语（广东口音）, 吴语, 闽南语	离线 / 流式	语音，歌唱，带有背景音乐的歌声
Qwen3-ForcedAligner-0.6B	中文，英语，粤语，法语，德语，意大利语，日语，韩语，葡萄牙语，俄语，西班牙语	–	非自回归	语音

image690×843 137 KB

image690×369 60.3 KB

image690×677 84 KB

模型地址：Qwen3-ASR - a Qwen Collection

仓库：GitHub - QwenLM/Qwen3-ASR: Qwen3-ASR is an open-source series of ASR models developed by the Qwen team at Alibaba Cloud, supporting stable multilingual speech/music/song recognition, language detection and timestamp prediction.

网友解答：

--【壹】--：

这个参数量是不是以后能部署在手机上啊，处理速度有点吓人

--【贰】--：

可以啊，回头部署试试

--【叁】--：

微软ASR开源转录有字幕时间轴，我用了后，对别的啥都没兴趣了。

--【肆】--：

TTS ASR OCR就别自己研究了开源的足够用了

--【伍】--：

huggingface.co

Qwen3-ASR Demo - a Hugging Face Space by Qwen

Discover amazing ML apps made by the community

modelscope.cn

Qwen3-ASR

ModelScope——汇聚各领域先进的机器学习模型，提供模型探索体验、推理、训练、部署和应用的一站式服务。在这里，共建模型开源社区，发现、学习、定制和分享心仪的模型。

这里可以试用

--【陆】--：

加速可以试试FlashAttention 2

--【柒】--：

谢谢佬~

--【捌】--：

這個有裝上去，等等看看指令是不是預設就會使用

--【玖】--：

这三个领域现在有LLM的加持发展是真的突飞猛进

刚发完阿里的ASR开源百度的OCR就又升级了太快了

--【拾】--：

好家伙，刚要研究就开源递枕头了啊哈哈

--【拾壹】--：

是的 ASR和TTS越来越适合端侧部署了

--【拾贰】--：

可能串流後會更快，現在在載1.7B

等等再來試試看

--【拾叁】--：

真假的，這個等很久了！！

但是想睡了，現在都23:43分了…

--【拾肆】--：

先把0.6B部署完了

大概2.2GB vram 第一次轉錄有點慢 (AST好像都會這樣)

第二次開始就快很多了 15秒日文發音大概2~3秒，正確度很高，速度上還需要微調一下

中文沒有試，因為沒有準備

--【拾伍】--：

有现成试用的吗？我刚好有需求，目前跑WhisperX效果不是特别好

哈基米情绪价值拉满…
image786×254 22.8 KB

--【拾陆】--：

关键还是都看质量，速度是一方面

--【拾柒】--：

你这半小时就搞定了也是快啊

--【拾捌】--：

那是，有开源的直接拿来用哈哈

--【拾玖】--：

质量也是SOTA级别

image1582×1135 161 KB

标签：人工智能 ASR 通义千问 Qwen

问题描述：

官方博客：Qwen

今天，我们正式开源Qwen3-ASR系列语音识别模型：
Qwen3-ASR-1.7B：高精度全场景识别模型
Qwen3-ASR-0.6B：高性能轻量级模型
Qwen3-ForcedAligner-0.6B：强制对齐模型

模型	语种支持	方言支持	推理模式	音频种类支持
Qwen3-ASR-1.7B & Qwen3-ASR-0.6B	中文，英语，粤语，阿拉伯语，德语，法语，西班牙语，葡萄牙语，印尼语，意大利语，韩语，俄语，泰语，越南语，日语，土耳其语，印地语，马来语，荷兰语，瑞典语，丹麦语，芬兰语，波兰语，捷克语，菲律宾语，波斯语，希腊语，匈牙利语，马其顿语，罗马尼亚语	安徽，东北，福建，甘肃，贵州，河北，河南，湖北，湖南，江西，宁夏，山东，山西，陕西，四川，天津，云南，浙江，粤语（香港口音）, 粤语（广东口音）, 吴语, 闽南语	离线 / 流式	语音，歌唱，带有背景音乐的歌声
Qwen3-ForcedAligner-0.6B	中文，英语，粤语，法语，德语，意大利语，日语，韩语，葡萄牙语，俄语，西班牙语	–	非自回归	语音

image690×843 137 KB

image690×369 60.3 KB

image690×677 84 KB

模型地址：Qwen3-ASR - a Qwen Collection

网友解答：

--【壹】--：

这个参数量是不是以后能部署在手机上啊，处理速度有点吓人

--【贰】--：

可以啊，回头部署试试

--【叁】--：

微软ASR开源转录有字幕时间轴，我用了后，对别的啥都没兴趣了。

--【肆】--：

TTS ASR OCR就别自己研究了开源的足够用了

--【伍】--：

huggingface.co

Qwen3-ASR Demo - a Hugging Face Space by Qwen

Discover amazing ML apps made by the community

modelscope.cn

Qwen3-ASR

这里可以试用

--【陆】--：

加速可以试试FlashAttention 2

--【柒】--：

谢谢佬~

--【捌】--：

這個有裝上去，等等看看指令是不是預設就會使用

--【玖】--：

这三个领域现在有LLM的加持发展是真的突飞猛进

刚发完阿里的ASR开源百度的OCR就又升级了太快了

--【拾】--：

好家伙，刚要研究就开源递枕头了啊哈哈

--【拾壹】--：

是的 ASR和TTS越来越适合端侧部署了

--【拾贰】--：

可能串流後會更快，現在在載1.7B

等等再來試試看

--【拾叁】--：

真假的，這個等很久了！！

但是想睡了，現在都23:43分了…

--【拾肆】--：

先把0.6B部署完了

大概2.2GB vram 第一次轉錄有點慢 (AST好像都會這樣)

第二次開始就快很多了 15秒日文發音大概2~3秒，正確度很高，速度上還需要微調一下

中文沒有試，因為沒有準備

--【拾伍】--：

有现成试用的吗？我刚好有需求，目前跑WhisperX效果不是特别好

哈基米情绪价值拉满…
image786×254 22.8 KB

--【拾陆】--：

关键还是都看质量，速度是一方面

--【拾柒】--：

你这半小时就搞定了也是快啊

--【拾捌】--：

那是，有开源的直接拿来用哈哈

--【拾玖】--：

质量也是SOTA级别

image1582×1135 161 KB

标签：人工智能 ASR 通义千问 Qwen

Qwen3-ASR Demo - a Hugging Face Space by Qwen

Qwen3-ASR

相关推荐

Qwen3-ASR Demo - a Hugging Face Space by Qwen

Qwen3-ASR

相关推荐