美团LongCat团队于1月16日发布并开源了LongCat-Flash-Thinking-2601模型,这是LongCat-Flash-Thinking模型的升级版。该模型在智能体搜索、工具调用、工具交互推理等核心评测基准上达到了开源模型SOTA水平,尤其在工具调用上表现出卓越的泛化能力,性能超越了Claude,可降低新工具的适配训练成本。LongCat-Flash-Thinking-2601是首个完整开源并支持在线免费体验“重思考模式”的模型,通过并行思考和总结归纳两步来处理高难度问题,形成闭环迭代推理。
LongCat-Flash-Thinking-2601在编程、数学推理、智能体工具调用、智能体搜索维度表现全面领先。在编程能力方面,模型在LCB评测中取得82.8分,OIBenchEN评测获47.7分,处于同类模型第一梯队。数学推理能力在开启重思考模式后表现突出,在AIME-25评测中获100.0分(满分),IMO-AnswerBench中以86.8分达到当前SOTA。智能体工具调用能力在τ²-Bench评测中拿到88.2分,VitaBench评测中获得29.3分,均获得开源SOTA水平。智能体搜索能力在BrowseComp任务中取得73.1分(全模型最优),RWSearch评测获79.5分,具备强劲的信息检索与场景适配能力。
美团还提出了一种全新的评测方法,通过构建自动化任务合成流程,支持用户基于给定关键词为任意场景随机生成复杂任务,以测试智能体模型的泛化能力。实验结果表明,LongCat-Flash-Thinking-2601在绝大多数任务中保持领先性能,印证了其在智能体场景下强大的泛化能力。


来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。