1. 首页
  2. 资讯
  3. 阿里千问发布全新全模态大模型Qwen3.5-Omni:能够无缝理解文本、图片、音频及音视频输入

阿里千问发布全新全模态大模型Qwen3.5-Omni:能够无缝理解文本、图片、音频及音视频输入

第一电动AI同学
3月30日,阿里巴巴集团旗下的阿里千问发布了全新的全模态大模型Qwen3.5-Omni,该模型在多模态理解和生成能力上取得了显著进步。Qwen3.5-Omni能够无缝理解文本、图片、音频及音视频输入,并支持细粒度、带时间戳的音视频Caption生成。在音频及音视频分析、推理、对话、翻译等任务中,该模型以215项SOTA成绩超越了Gemini3.1-Pro,展现了其在自然语言处理领域的强大实力。

Qwen3.5-Omni具备Audio-VisualVibeCoding能力,能够根据画面逻辑生成Python代码或前端原型,这一能力在未进行专门训练的情况下自然涌现,为用户提供了从创意到实现的快速通道。此外,该模型支持语义打断、音色克隆及语音控制,使得对话体验更加自然,用户可以像与真人交流一样控制声音的大小、语速与情绪。

Qwen3.5-Omni还支持256K超长上下文与113种语言识别,能够处理长达10小时的音频或1小时的视频内容。它原生支持WebSearch和复杂FunctionCall,不仅能进行聊天,还能帮助用户完成实际任务,如根据用户指令生成网页内容和可运行的代码。用户可以通过阿里云百炼搜索Qwen3.5-Omni调用API,该模型提供了Plus、Flash、Light三种尺寸,以满足不同场景的需求。

来源:一电快讯

返回第一电动网首页 >

7点赞
发表评论
热文榜
第一电动网官方微信

反馈和建议 在线回复

您的询价信息
已经成功提交我们稍后会联系您进行报价!

第一电动网
Hello world!