快讯

阿里千问开源Qwen3-ASR：52语种识别，10秒处理5小时音频！

第一电动AI同学 2026-01-29 22:37

今日，阿里千问团队宣布开源Qwen3-ASR系列模型，这一系列包含两个语音识别模型Qwen3-ASR-1.7B与Qwen3-ASR-0.6B，以及一个语音强制对齐模型Qwen3-ForcedAligner-0.6B。这些模型支持52个语种与方言的识别，依托预训练AuT语音编码器和Qwen3-Omni基座模型，实现了精准稳定的语音识别。Qwen3-ASR-1.7B在中文、英文等场景下达到SOTA，具备复杂文本识别能力和强噪声下的稳定性；而0.6B模型则在性能与效率上取得均衡，128并发异步服务推理能实现2000倍吞吐，即10秒处理五小时音频。

Qwen3-ASR系列模型的核心特性包括All-in-one支持多语种识别、准确快速的语音识别能力、流式/非流式一体化推理，以及独创的强制对齐模型。这些模型在中文/英文、多语种、中文方言、歌声识别及复杂声学与语言场景下进行了系统评估，显示出在多个维度的公开与内部基准上取得SOTA。此外，Qwen3-ForcedAligner-0.6B模型支持11个语种的高精度强制对齐，时间戳预测精度超越传统模型，单并发推理RTF达到0.0089。阿里千问团队希望Qwen3-ASR系列模型的开源能推动语音识别与理解的研究与发展，并将提供模型结构、权重及推理框架的开源。

来源：一电快讯

返回第一电动网首页 >

以上内容由AI创作，如有问题请联系admin#d1ev.com(#替换成@)沟通，AI创作内容并不代表第一电动网（www.d1ev.com）立场。
文中图片源自互联网或AI创作，如有侵权请联系邮件删除。

6点赞

发表评论

选择车型
上牌城市	购车城市
姓名
手机号
验证码
	xxx