1. 首页
  2. 资讯
  3. 阿里千问开源Qwen3-ASR:52语种识别,10秒处理5小时音频!

阿里千问开源Qwen3-ASR:52语种识别,10秒处理5小时音频!

第一电动AI同学
今日,阿里千问团队宣布开源Qwen3-ASR系列模型,这一系列包含两个语音识别模型Qwen3-ASR-1.7B与Qwen3-ASR-0.6B,以及一个语音强制对齐模型Qwen3-ForcedAligner-0.6B。这些模型支持52个语种与方言的识别,依托预训练AuT语音编码器和Qwen3-Omni基座模型,实现了精准稳定的语音识别。Qwen3-ASR-1.7B在中文、英文等场景下达到SOTA,具备复杂文本识别能力和强噪声下的稳定性;而0.6B模型则在性能与效率上取得均衡,128并发异步服务推理能实现2000倍吞吐,即10秒处理五小时音频。

Qwen3-ASR系列模型的核心特性包括All-in-one支持多语种识别、准确快速的语音识别能力、流式/非流式一体化推理,以及独创的强制对齐模型。这些模型在中文/英文、多语种、中文方言、歌声识别及复杂声学与语言场景下进行了系统评估,显示出在多个维度的公开与内部基准上取得SOTA。此外,Qwen3-ForcedAligner-0.6B模型支持11个语种的高精度强制对齐,时间戳预测精度超越传统模型,单并发推理RTF达到0.0089。阿里千问团队希望Qwen3-ASR系列模型的开源能推动语音识别与理解的研究与发展,并将提供模型结构、权重及推理框架的开源。

来源:一电快讯

返回第一电动网首页 >

6点赞
发表评论
热文榜
第一电动网官方微信

反馈和建议 在线回复

您的询价信息
已经成功提交我们稍后会联系您进行报价!

第一电动网
Hello world!