1. 首页
  2. 资讯
  3. 腾讯混元首篇“姚顺雨式论文”:构建CL-Bench评测体系揭开大模型“长上下文可用性”的真相

腾讯混元首篇“姚顺雨式论文”:构建CL-Bench评测体系揭开大模型“长上下文可用性”的真相

第一电动永娟
2月4日消息,腾讯混元团队在姚顺雨加入后发布的首篇论文《CL-BENCH: A Benchmark for Context Learning》,首次系统性指出:当前大模型在“长上下文”上的核心短板,不是读不全、找不到,而是“学不会、用不对、执行不了”。

论文提出并构建了全新的评测体系 CL-Bench,聚焦一种区别于传统 In-Context Learning 的能力——Context Learning(上下文学习):模型必须从一次性提供的、此前未见过的复杂上下文中真正内化新知识,并在后续任务中严格、持续、可验证地加以应用。这正是 Agent 在真实世界中完成法律判断、流程执行、规则推演和经验归纳时所必需的基础能力。

CL-Bench 包含 500 个高密度长上下文任务(平均 10.4k token,最长 65k),覆盖领域知识推理、规则系统应用、流程执行、经验发现四大类,19 个子类,分别模拟不同层级的人类上下文学习场景。在评测方法上,CL-Bench 为每个任务设计了平均 16.6 条 Rubrics 规则,从事实、计算、流程、格式等多个维度进行验证。只有同时满足全部规则,任务才被判定为成功,强调“正确执行”而非“部分合理”。结果显示,10 个前沿模型的平均成功率仅 17.2%,表现最好的 GPT-5.1(High)也只有 23.7%,在最贴近“科学发现”的经验归纳类任务中,整体成功率进一步跌至 11.8%。

更关键的是,论文将失败原因结构化为三类:忽略上下文、误用上下文、违反硬约束。即便在最强模型中,“误用上下文”的发生率仍超过 60%,揭示了当前长上下文能力提升路径——更大窗口、更快注意力、更强检索——本质上解决的是“带宽与定位”,而非“内化与执行”。

在讨论部分,混元团队明确提出:绕道式的记忆压缩与外部系统只能缓解症状,真正的突破必须在训练阶段正面补齐上下文学习能力,包括强上下文依赖数据、课程式难度递进、将 Rubrics 转化为训练信号,以及面向“上下文可调用”的新架构探索。论文最后强调,只有当模型能够快速内化陌生上下文,并精确、稳定地应用这些知识完成任务时,AI 才能真正成为可用的推理型 Agent。CL-Bench 的目标,正是为这一能力提供清晰、可检验的评估基准。

来源:一电快讯

返回第一电动网首页 >

5点赞
发表评论
热文榜
第一电动网官方微信

反馈和建议 在线回复

您的询价信息
已经成功提交我们稍后会联系您进行报价!

第一电动网
Hello world!