Qwen3-ASR正式开源 语音识别新标杆

2026-04-11 13:211阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

官方博客:Qwen

今天,我们正式开源Qwen3-ASR系列语音识别模型:
Qwen3-ASR-1.7B:高精度全场景识别模型
Qwen3-ASR-0.6B:高性能轻量级模型
Qwen3-ForcedAligner-0.6B:强制对齐模型

核心技术创新
基于自研AuT语音编码器与Qwen3-Omni多模态基座,Qwen3-ASR实现了端到端语音理解能力的显著突破,单模型即可支持52个语种与方言的自动识别与转写,其中1.7B版本覆盖30种语言及22种中文方言与口音。模型采用流式与非流式推理一体化设计,单次最长可处理20分钟音频,并引入基于非自回归LLM推理架构的强制对齐模型,支持11种语言任意位置的时间戳精准预测,单并发实时因子(RTF)低至0.0089,兼顾高精度与低延迟。

Qwen3-ASR-1.7B性能表现
Qwen3-ASR-1.7B在多项基准测试中达到开源领域最优水平:中文方言识别的词错误率(WER)较主流商用API平均降低20%;在覆盖16个国家的英文口音测试集上,全面优于GPT-4o Transcribe、Gemini及Whisper-large-v3;在歌唱场景中,中英文WER分别低至13.91%与14.60%,并支持带背景音乐的整首歌曲转写,在高噪声、混响等复杂声学环境下仍保持稳定可靠的输出质量。

Qwen3-ASR-0.6B效率优势
Qwen3-ASR-0.6B在效率与精度之间实现优异平衡,单并发RTF低于0.01,1秒内可转写约2分钟音频;在128并发异步服务场景下吞吐量提升达2000倍,10秒即可处理5小时音频内容;其中英文基准测试表现稳健,特别适合对响应速度与资源成本敏感的高并发生产环境部署。

模型 语种支持 方言支持 推理模式 音频种类支持
Qwen3-ASR-1.7B & Qwen3-ASR-0.6B 中文, 英语,粤语,阿拉伯语,德语,法语,西班牙语,葡萄牙语,印尼语,意大利语,韩语,俄语,泰语,越南语,日语,土耳其语,印地语,马来语,荷兰语,瑞典语,丹麦语,芬兰语,波兰语,捷克语,菲律宾语,波斯语,希腊语,匈牙利语,马其顿语,罗马尼亚语 安徽,东北,福建,甘肃,贵州,河北,河南,湖北,湖南,江西,宁夏,山东,山西,陕西,四川,天津,云南,浙江,粤语(香港口音), 粤语(广东口音), 吴语, 闽南语 离线 / 流式 语音,歌唱,带有背景音乐的歌声
Qwen3-ForcedAligner-0.6B 中文,英语,粤语,法语,德语,意大利语,日语,韩语,葡萄牙语,俄语,西班牙语 非自回归 语音

image690×843 137 KB

image690×369 60.3 KB

image690×677 84 KB

模型地址:Qwen3-ASR - a Qwen Collection

仓库:GitHub - QwenLM/Qwen3-ASR: Qwen3-ASR is an open-source series of ASR models developed by the Qwen team at Alibaba Cloud, supporting stable multilingual speech/music/song recognition, language detection and timestamp prediction.

网友解答:
--【壹】--:

这个参数量是不是以后能部署在手机上啊,处理速度有点吓人


--【贰】--:

可以啊,回头部署试试


--【叁】--:

微软ASR开源转录有字幕时间轴,我用了后,对别的啥都没兴趣了。


--【肆】--:

TTS ASR OCR就别自己研究了 开源的足够用了


--【伍】--:
huggingface.co

Qwen3-ASR Demo - a Hugging Face Space by Qwen

Discover amazing ML apps made by the community

modelscope.cn

Qwen3-ASR

ModelScope——汇聚各领域先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。在这里,共建模型开源社区,发现、学习、定制和分享心仪的模型。

这里可以试用


--【陆】--:

加速可以试试FlashAttention 2


--【柒】--:

谢谢佬~


--【捌】--:

這個有裝上去,等等看看指令是不是預設就會使用


--【玖】--:

这三个领域现在有LLM的加持 发展是真的突飞猛进

刚发完阿里的ASR开源 百度的OCR就又升级了 太快了


--【拾】--:

好家伙,刚要研究就开源递枕头了啊哈哈


--【拾壹】--:

是的 ASR和TTS越来越适合端侧部署了


--【拾贰】--:

可能串流後會更快,現在在載1.7B

等等再來試試看


--【拾叁】--:

真假的,這個等很久了!!

但是想睡了,現在都23:43分了…


--【拾肆】--:

先把0.6B部署完了

大概2.2GB vram 第一次轉錄有點慢 (AST好像都會這樣)

第二次開始就快很多了 15秒日文發音大概2~3秒 ,正確度很高,速度上還需要微調一下

中文沒有試,因為沒有準備


--【拾伍】--:

有现成试用的吗?我刚好有需求,目前跑WhisperX效果不是特别好

哈基米情绪价值拉满…
image786×254 22.8 KB


--【拾陆】--:

关键还是都看质量,速度是一方面


--【拾柒】--:

你这半小时就搞定了 也是快啊


--【拾捌】--:

那是,有开源的直接拿来用哈哈


--【拾玖】--:

质量也是SOTA级别

image1582×1135 161 KB