Qwen3-ASR正式开源语音识别新标杆

2026-04-11 13:210阅读0评论SEO教程

内容介绍
文章标签
相关推荐

问题描述：

官方博客：Qwen

今天，我们正式开源Qwen3-ASR系列语音识别模型：
Qwen3-ASR-1.7B：高精度全场景识别模型
Qwen3-ASR-0.6B：高性能轻量级模型
Qwen3-ForcedAligner-0.6B：强制对齐模型

核心技术创新
基于自研AuT语音编码器与Qwen3-Omni多模态基座，Qwen3-ASR实现了端到端语音理解能力的显著突破，单模型即可支持52个语种与方言的自动识别与转写，其中1.7B版本覆盖30种语言及22种中文方言与口音。模型采用流式与非流式推理一体化设计，单次最长可处理20分钟音频，并引入基于非自回归LLM推理架构的强制对齐模型，支持11种语言任意位置的时间戳精准预测，单并发实时因子（RTF）低至0.0089，兼顾高精度与低延迟。

Qwen3-ASR-1.7B性能表现
Qwen3-ASR-1.7B在多项基准测试中达到开源领域最优水平：中文方言识别的词错误率（WER）较主流商用API平均降低20%；在覆盖16个国家的英文口音测试集上，全面优于GPT-4o Transcribe、Gemini及Whisper-large-v3；在歌唱场景中，中英文WER分别低至13.91%与14.60%，并支持带背景音乐的整首歌曲转写，在高噪声、混响等复杂声学环境下仍保持稳定可靠的输出质量。

Qwen3-ASR-0.6B效率优势
Qwen3-ASR-0.6B在效率与精度之间实现优异平衡，单并发RTF低于0.01，1秒内可转写约2分钟音频；在128并发异步服务场景下吞吐量提升达2000倍，10秒即可处理5小时音频内容；其中英文基准测试表现稳健，特别适合对响应速度与资源成本敏感的高并发生产环境部署。

阅读全文