Qwen3-ASR正式开源 语音识别新标杆
- 内容介绍
- 文章标签
- 相关推荐
官方博客:Qwen
今天,我们正式开源Qwen3-ASR系列语音识别模型:
Qwen3-ASR-1.7B:高精度全场景识别模型
Qwen3-ASR-0.6B:高性能轻量级模型
Qwen3-ForcedAligner-0.6B:强制对齐模型
核心技术创新
基于自研AuT语音编码器与Qwen3-Omni多模态基座,Qwen3-ASR实现了端到端语音理解能力的显著突破,单模型即可支持52个语种与方言的自动识别与转写,其中1.7B版本覆盖30种语言及22种中文方言与口音。模型采用流式与非流式推理一体化设计,单次最长可处理20分钟音频,并引入基于非自回归LLM推理架构的强制对齐模型,支持11种语言任意位置的时间戳精准预测,单并发实时因子(RTF)低至0.0089,兼顾高精度与低延迟。
Qwen3-ASR-1.7B性能表现
Qwen3-ASR-1.7B在多项基准测试中达到开源领域最优水平:中文方言识别的词错误率(WER)较主流商用API平均降低20%;在覆盖16个国家的英文口音测试集上,全面优于GPT-4o Transcribe、Gemini及Whisper-large-v3;在歌唱场景中,中英文WER分别低至13.91%与14.60%,并支持带背景音乐的整首歌曲转写,在高噪声、混响等复杂声学环境下仍保持稳定可靠的输出质量。
Qwen3-ASR-0.6B效率优势
Qwen3-ASR-0.6B在效率与精度之间实现优异平衡,单并发RTF低于0.01,1秒内可转写约2分钟音频;在128并发异步服务场景下吞吐量提升达2000倍,10秒即可处理5小时音频内容;其中英文基准测试表现稳健,特别适合对响应速度与资源成本敏感的高并发生产环境部署。
| 模型 | 语种支持 | 方言支持 | 推理模式 | 音频种类支持 |
|---|---|---|---|---|
| Qwen3-ASR-1.7B & Qwen3-ASR-0.6B | 中文, 英语,粤语,阿拉伯语,德语,法语,西班牙语,葡萄牙语,印尼语,意大利语,韩语,俄语,泰语,越南语,日语,土耳其语,印地语,马来语,荷兰语,瑞典语,丹麦语,芬兰语,波兰语,捷克语,菲律宾语,波斯语,希腊语,匈牙利语,马其顿语,罗马尼亚语 | 安徽,东北,福建,甘肃,贵州,河北,河南,湖北,湖南,江西,宁夏,山东,山西,陕西,四川,天津,云南,浙江,粤语(香港口音), 粤语(广东口音), 吴语, 闽南语 | 离线 / 流式 | 语音,歌唱,带有背景音乐的歌声 |
| Qwen3-ForcedAligner-0.6B | 中文,英语,粤语,法语,德语,意大利语,日语,韩语,葡萄牙语,俄语,西班牙语 | – | 非自回归 | 语音 |
image690×843 137 KB
image690×369 60.3 KB
image690×677 84 KB
模型地址:Qwen3-ASR - a Qwen Collection
仓库:GitHub - QwenLM/Qwen3-ASR: Qwen3-ASR is an open-source series of ASR models developed by the Qwen team at Alibaba Cloud, supporting stable multilingual speech/music/song recognition, language detection and timestamp prediction.
网友解答:--【壹】--:
这个参数量是不是以后能部署在手机上啊,处理速度有点吓人
--【贰】--:
可以啊,回头部署试试
--【叁】--:
微软ASR开源转录有字幕时间轴,我用了后,对别的啥都没兴趣了。
--【肆】--:
TTS ASR OCR就别自己研究了 开源的足够用了
--【伍】--:
Qwen3-ASR Demo - a Hugging Face Space by Qwen
Discover amazing ML apps made by the community
Qwen3-ASR
ModelScope——汇聚各领域先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。在这里,共建模型开源社区,发现、学习、定制和分享心仪的模型。
这里可以试用
--【陆】--:
加速可以试试FlashAttention 2
--【柒】--:
谢谢佬~
--【捌】--:
這個有裝上去,等等看看指令是不是預設就會使用
--【玖】--:
这三个领域现在有LLM的加持 发展是真的突飞猛进
刚发完阿里的ASR开源 百度的OCR就又升级了 太快了
--【拾】--:
好家伙,刚要研究就开源递枕头了啊哈哈
--【拾壹】--:
是的 ASR和TTS越来越适合端侧部署了
--【拾贰】--:
可能串流後會更快,現在在載1.7B
等等再來試試看
--【拾叁】--:
真假的,這個等很久了!!
但是想睡了,現在都23:43分了…
--【拾肆】--:
先把0.6B部署完了
大概2.2GB vram 第一次轉錄有點慢 (AST好像都會這樣)
第二次開始就快很多了 15秒日文發音大概2~3秒 ,正確度很高,速度上還需要微調一下
中文沒有試,因為沒有準備
--【拾伍】--:
有现成试用的吗?我刚好有需求,目前跑WhisperX效果不是特别好
哈基米情绪价值拉满…
image786×254 22.8 KB
--【拾陆】--:
关键还是都看质量,速度是一方面
--【拾柒】--:
你这半小时就搞定了 也是快啊
--【拾捌】--:
那是,有开源的直接拿来用哈哈
--【拾玖】--:
质量也是SOTA级别
image1582×1135 161 KB
官方博客:Qwen
今天,我们正式开源Qwen3-ASR系列语音识别模型:
Qwen3-ASR-1.7B:高精度全场景识别模型
Qwen3-ASR-0.6B:高性能轻量级模型
Qwen3-ForcedAligner-0.6B:强制对齐模型
核心技术创新
基于自研AuT语音编码器与Qwen3-Omni多模态基座,Qwen3-ASR实现了端到端语音理解能力的显著突破,单模型即可支持52个语种与方言的自动识别与转写,其中1.7B版本覆盖30种语言及22种中文方言与口音。模型采用流式与非流式推理一体化设计,单次最长可处理20分钟音频,并引入基于非自回归LLM推理架构的强制对齐模型,支持11种语言任意位置的时间戳精准预测,单并发实时因子(RTF)低至0.0089,兼顾高精度与低延迟。
Qwen3-ASR-1.7B性能表现
Qwen3-ASR-1.7B在多项基准测试中达到开源领域最优水平:中文方言识别的词错误率(WER)较主流商用API平均降低20%;在覆盖16个国家的英文口音测试集上,全面优于GPT-4o Transcribe、Gemini及Whisper-large-v3;在歌唱场景中,中英文WER分别低至13.91%与14.60%,并支持带背景音乐的整首歌曲转写,在高噪声、混响等复杂声学环境下仍保持稳定可靠的输出质量。
Qwen3-ASR-0.6B效率优势
Qwen3-ASR-0.6B在效率与精度之间实现优异平衡,单并发RTF低于0.01,1秒内可转写约2分钟音频;在128并发异步服务场景下吞吐量提升达2000倍,10秒即可处理5小时音频内容;其中英文基准测试表现稳健,特别适合对响应速度与资源成本敏感的高并发生产环境部署。
| 模型 | 语种支持 | 方言支持 | 推理模式 | 音频种类支持 |
|---|---|---|---|---|
| Qwen3-ASR-1.7B & Qwen3-ASR-0.6B | 中文, 英语,粤语,阿拉伯语,德语,法语,西班牙语,葡萄牙语,印尼语,意大利语,韩语,俄语,泰语,越南语,日语,土耳其语,印地语,马来语,荷兰语,瑞典语,丹麦语,芬兰语,波兰语,捷克语,菲律宾语,波斯语,希腊语,匈牙利语,马其顿语,罗马尼亚语 | 安徽,东北,福建,甘肃,贵州,河北,河南,湖北,湖南,江西,宁夏,山东,山西,陕西,四川,天津,云南,浙江,粤语(香港口音), 粤语(广东口音), 吴语, 闽南语 | 离线 / 流式 | 语音,歌唱,带有背景音乐的歌声 |
| Qwen3-ForcedAligner-0.6B | 中文,英语,粤语,法语,德语,意大利语,日语,韩语,葡萄牙语,俄语,西班牙语 | – | 非自回归 | 语音 |
image690×843 137 KB
image690×369 60.3 KB
image690×677 84 KB
模型地址:Qwen3-ASR - a Qwen Collection
仓库:GitHub - QwenLM/Qwen3-ASR: Qwen3-ASR is an open-source series of ASR models developed by the Qwen team at Alibaba Cloud, supporting stable multilingual speech/music/song recognition, language detection and timestamp prediction.
网友解答:--【壹】--:
这个参数量是不是以后能部署在手机上啊,处理速度有点吓人
--【贰】--:
可以啊,回头部署试试
--【叁】--:
微软ASR开源转录有字幕时间轴,我用了后,对别的啥都没兴趣了。
--【肆】--:
TTS ASR OCR就别自己研究了 开源的足够用了
--【伍】--:
Qwen3-ASR Demo - a Hugging Face Space by Qwen
Discover amazing ML apps made by the community
Qwen3-ASR
ModelScope——汇聚各领域先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。在这里,共建模型开源社区,发现、学习、定制和分享心仪的模型。
这里可以试用
--【陆】--:
加速可以试试FlashAttention 2
--【柒】--:
谢谢佬~
--【捌】--:
這個有裝上去,等等看看指令是不是預設就會使用
--【玖】--:
这三个领域现在有LLM的加持 发展是真的突飞猛进
刚发完阿里的ASR开源 百度的OCR就又升级了 太快了
--【拾】--:
好家伙,刚要研究就开源递枕头了啊哈哈
--【拾壹】--:
是的 ASR和TTS越来越适合端侧部署了
--【拾贰】--:
可能串流後會更快,現在在載1.7B
等等再來試試看
--【拾叁】--:
真假的,這個等很久了!!
但是想睡了,現在都23:43分了…
--【拾肆】--:
先把0.6B部署完了
大概2.2GB vram 第一次轉錄有點慢 (AST好像都會這樣)
第二次開始就快很多了 15秒日文發音大概2~3秒 ,正確度很高,速度上還需要微調一下
中文沒有試,因為沒有準備
--【拾伍】--:
有现成试用的吗?我刚好有需求,目前跑WhisperX效果不是特别好
哈基米情绪价值拉满…
image786×254 22.8 KB
--【拾陆】--:
关键还是都看质量,速度是一方面
--【拾柒】--:
你这半小时就搞定了 也是快啊
--【拾捌】--:
那是,有开源的直接拿来用哈哈
--【拾玖】--:
质量也是SOTA级别
image1582×1135 161 KB

