美团近日开源了名为LongCat-Flash-Prover的大模型,该模型拥有5677亿参数,并采用MoE(混合专家模型)形态,专注于解决复杂的数学证明问题。模型引入了混合专家迭代框架,用于生成大规模、高质量的形式化推理轨迹,并通过整合Lean4、基于AST的多阶段严格验证流程,以消除“幻觉”现象。
在训练过程中,LongCat-Flash-Prover模型利用混合专家迭代框架生成冷启动数据,并在强化学习阶段引入HisPO算法,以稳定MoE模型的长程任务训练。此外,模型还加入了定理一致性和合法性检测机制,以防止RewardHacking(奖励黑客行为)。基准测试显示,该模型在MiniF2F-Test上取得了97.1%的成绩,仅需72次推理尝试;在PutnamBench任务上解决了41.5%的问题,使用118次推理尝试,均刷新了SOTA水平。

来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。