快讯

腾讯混元首篇“姚顺雨式论文”：构建CL-Bench评测体系揭开大模型“长上下文可用性”的真相

第一电动永娟 2026-02-04 16:19

2月4日消息，腾讯混元团队在姚顺雨加入后发布的首篇论文《CL-BENCH: A Benchmark for Context Learning》，首次系统性指出：当前大模型在“长上下文”上的核心短板，不是读不全、找不到，而是“学不会、用不对、执行不了”。

论文提出并构建了全新的评测体系 CL-Bench，聚焦一种区别于传统 In-Context Learning 的能力——Context Learning（上下文学习）：模型必须从一次性提供的、此前未见过的复杂上下文中真正内化新知识，并在后续任务中严格、持续、可验证地加以应用。这正是 Agent 在真实世界中完成法律判断、流程执行、规则推演和经验归纳时所必需的基础能力。

CL-Bench 包含 500 个高密度长上下文任务（平均 10.4k token，最长 65k），覆盖领域知识推理、规则系统应用、流程执行、经验发现四大类，19 个子类，分别模拟不同层级的人类上下文学习场景。在评测方法上，CL-Bench 为每个任务设计了平均 16.6 条 Rubrics 规则，从事实、计算、流程、格式等多个维度进行验证。只有同时满足全部规则，任务才被判定为成功，强调“正确执行”而非“部分合理”。结果显示，10 个前沿模型的平均成功率仅 17.2%，表现最好的 GPT-5.1（High）也只有 23.7%，在最贴近“科学发现”的经验归纳类任务中，整体成功率进一步跌至 11.8%。

更关键的是，论文将失败原因结构化为三类：忽略上下文、误用上下文、违反硬约束。即便在最强模型中，“误用上下文”的发生率仍超过 60%，揭示了当前长上下文能力提升路径——更大窗口、更快注意力、更强检索——本质上解决的是“带宽与定位”，而非“内化与执行”。

在讨论部分，混元团队明确提出：绕道式的记忆压缩与外部系统只能缓解症状，真正的突破必须在训练阶段正面补齐上下文学习能力，包括强上下文依赖数据、课程式难度递进、将 Rubrics 转化为训练信号，以及面向“上下文可调用”的新架构探索。论文最后强调，只有当模型能够快速内化陌生上下文，并精确、稳定地应用这些知识完成任务时，AI 才能真正成为可用的推理型 Agent。CL-Bench 的目标，正是为这一能力提供清晰、可检验的评估基准。

来源：一电快讯

返回第一电动网首页 >

以上内容由AI创作，如有问题请联系admin#d1ev.com(#替换成@)沟通，AI创作内容并不代表第一电动网（www.d1ev.com）立场。文中图片源自互联网或AI创作，如有侵权请联系邮件删除。

5点赞

发表评论

选择车型
上牌城市	购车城市
姓名
手机号
验证码
	xxx