6月1日,英伟达宣布推出英伟达Cosmos3,这是一款面向物理人工智能的开放世界基础大模型。Cosmos3依托混合Transformer架构,融合视觉推理、世界生成与动作预测能力,是全球首款全开源的全模态大模型。该模型能够原生理解并生成文本、图像、视频、环境音效及动作内容,物理仿真精度业界领先,能将物理人工智能的训练与评估周期从数月缩短至数日。
英伟达同时发起英伟达宇宙联盟(NVIDIA Cosmos Coalition),汇聚全球世界模型研发团队与人工智能开发者携手合作,共同推动下一代世界模型技术发展。Cosmos3采用混合Transformer架构,将推理Transformer与专精生成类Transformer相结合,基于海量多模态物理人工智能数据集训练而成,涵盖数十亿条文本、图像、视频、音效及动作轨迹样本。开发者可将Cosmos3用作多模态图文大模型、世界模型/视频基础模型以及世界动作模型主干网络。
在物理人工智能主流评测基准中,Cosmos3表现优异。其世界生成精度、动作策略能力和视觉理解能力均在相关基准中排名第一。Cosmos3提供多个版本,适配物理人工智能不同研发阶段需求,包括面向机器人与
自动驾驶模型的二次训练的Cosmos3Super,数秒内即可完成高品质视频解析与动作推理的Cosmos3Nano,以及即将上线的主打边缘端实时推理的Cosmos3Edge。

来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。