3月10日,腾讯混元3D团队宣布开源业界首个面向世界模型的强化学习后训练框架WorldCompass。该框架是混元世界模型1.5的官方强化学习扩展模块,旨在提高世界模型的交互准确性和体验。WorldCompass通过引入强化学习机制,指导模型更准确地遵循用户指令探索世界,并保持长时序的视觉一致性。
实验结果显示,WorldCompass能显著提升SOTA开源世界模型WorldPlay的交互准确率和视觉保真度。特别是在复杂的组合动作场景下,交互准确率提升了近35%。团队在最新的开源SOTA模型WorldPlay上进行了验证。结果显示,经过WorldCompass的后训练,模型能力实现了大幅提升。在复合动作场景下,基座模型对于复杂组合式动作序列执行的准确率仅为20%左右,使用WorldCompass训练后,准确率提升至55%左右,提升幅度超过35%。对于基础动作,准确率也提升了约10%。
WorldCompass已在混元WorldPlay模型上得到验证,相关代码和模型细节已开源。这标志着腾讯在强化学习领域的又一重要进展,为长时序、交互式世界模型的研究和应用提供了新的工具和方法。



来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。