Qwen3-ASR正式开源 语音识别新标杆

2026-04-11 13:210阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

官方博客:Qwen

今天,我们正式开源Qwen3-ASR系列语音识别模型:
Qwen3-ASR-1.7B:高精度全场景识别模型
Qwen3-ASR-0.6B:高性能轻量级模型
Qwen3-ForcedAligner-0.6B:强制对齐模型

核心技术创新
基于自研AuT语音编码器与Qwen3-Omni多模态基座,Qwen3-ASR实现了端到端语音理解能力的显著突破,单模型即可支持52个语种与方言的自动识别与转写,其中1.7B版本覆盖30种语言及22种中文方言与口音。模型采用流式与非流式推理一体化设计,单次最长可处理20分钟音频,并引入基于非自回归LLM推理架构的强制对齐模型,支持11种语言任意位置的时间戳精准预测,单并发实时因子(RTF)低至0.0089,兼顾高精度与低延迟。

Qwen3-ASR-1.7B性能表现
Qwen3-ASR-1.7B在多项基准测试中达到开源领域最优水平:中文方言识别的词错误率(WER)较主流商用API平均降低20%;在覆盖16个国家的英文口音测试集上,全面优于GPT-4o Transcribe、Gemini及Whisper-large-v3;在歌唱场景中,中英文WER分别低至13.91%与14.60%,并支持带背景音乐的整首歌曲转写,在高噪声、混响等复杂声学环境下仍保持稳定可靠的输出质量。

Qwen3-ASR-0.6B效率优势
Qwen3-ASR-0.6B在效率与精度之间实现优异平衡,单并发RTF低于0.01,1秒内可转写约2分钟音频;在128并发异步服务场景下吞吐量提升达2000倍,10秒即可处理5小时音频内容;其中英文基准测试表现稳健,特别适合对响应速度与资源成本敏感的高并发生产环境部署。

阅读全文
问题描述:

官方博客:Qwen

今天,我们正式开源Qwen3-ASR系列语音识别模型:
Qwen3-ASR-1.7B:高精度全场景识别模型
Qwen3-ASR-0.6B:高性能轻量级模型
Qwen3-ForcedAligner-0.6B:强制对齐模型

核心技术创新
基于自研AuT语音编码器与Qwen3-Omni多模态基座,Qwen3-ASR实现了端到端语音理解能力的显著突破,单模型即可支持52个语种与方言的自动识别与转写,其中1.7B版本覆盖30种语言及22种中文方言与口音。模型采用流式与非流式推理一体化设计,单次最长可处理20分钟音频,并引入基于非自回归LLM推理架构的强制对齐模型,支持11种语言任意位置的时间戳精准预测,单并发实时因子(RTF)低至0.0089,兼顾高精度与低延迟。

Qwen3-ASR-1.7B性能表现
Qwen3-ASR-1.7B在多项基准测试中达到开源领域最优水平:中文方言识别的词错误率(WER)较主流商用API平均降低20%;在覆盖16个国家的英文口音测试集上,全面优于GPT-4o Transcribe、Gemini及Whisper-large-v3;在歌唱场景中,中英文WER分别低至13.91%与14.60%,并支持带背景音乐的整首歌曲转写,在高噪声、混响等复杂声学环境下仍保持稳定可靠的输出质量。

Qwen3-ASR-0.6B效率优势
Qwen3-ASR-0.6B在效率与精度之间实现优异平衡,单并发RTF低于0.01,1秒内可转写约2分钟音频;在128并发异步服务场景下吞吐量提升达2000倍,10秒即可处理5小时音频内容;其中英文基准测试表现稳健,特别适合对响应速度与资源成本敏感的高并发生产环境部署。

阅读全文