近日,专为OpenClaw设计的全球大模型适配程度评估榜单PinchBench引发关注。该榜单从成功率、速度、价格等维度对模型进行排名,中国模型在成功率和速度方面表现出色,但在价格方面稍逊。截至发稿前,
谷歌Gemini3Flash以95.1%的成功率位居榜首,国内模型MiniMaxM2.1和KimiK2.5分列二、三名。在速度方面,国产模型MiniMaxM2.5超越其他模型登顶。
PinchBench由创业团队KiloAI推出,包含23个真实任务测试,采用自动化检查+LLM评审的评分机制,核心指标为成功率、速度、成本。该榜单显示,并非所有大模型都能在真实任务中表现优异,一些偏Agent优化或推理效率更高的模型排名更靠前。PinchBench目前完全开源,用户可在平台上自行运行或添加新任务。



来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。