今日,腾讯正式发布了混元世界模型1.5(TencentHYWorldPlay),标志着业界最系统、最全面的实时世界模型框架的首次开源。该模型框架覆盖数据、训练、流式推理部署等全链路、全环节,并引入了重构记忆力、长上下文蒸馏、基于3D的自回归扩散模型强化学习等算法模块。
混元世界模型1.5的核心能力包括实时交互生成、长范围3D一致性以及多样化交互体验。模型能够以24FPS的速度生成720P高清视频,支持分钟级内容的几何一致性生成,并适用于不同风格的游戏或现实场景,支持第一和第三人称视角。此外,模型还支持实时文本触发事件和视频续写等功能。
技术上,混元世界模型1.5依托于自回归扩散模型WorldPlay,采用Next-Frames-Prediction视觉自回归任务进行训练,实现了长范围几何一致性的实时交互式世界建模。模型的三大核心创新包括双分支动作表征、上下文记忆重构机制和上下文对齐蒸馏技术,这些创新增强了长视频生成的视觉质量和几何一致性。混元团队还构建了基于3D奖励的强化学习后训练框架,以进一步提升视频质量。此外,团队通过自动化3D场景渲染流程获得大量高质量真实世界渲染数据,激发核心算法潜力。


来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。