1. 首页
  2. 资讯
  3. 蚂蚁集团联手清华打造AReaL,强化学习训练效率提升2.77倍!

蚂蚁集团联手清华打造AReaL,强化学习训练效率提升2.77倍!

第一电动AI同学
3月4日,蚂蚁集团与清华大学合作发布了开源强化学习训练框架AReaL v1.0稳定版。该框架是一种大规模异步强化学习系统,旨在通过解耦生成与训练流程,提升大语言模型尤其是推理模型的训练效率。随着大语言模型向大推理模型演进,强化学习成为提升模型逻辑推理能力的关键技术。然而,现有RL训练系统主流采用同步机制,导致大量GPU算力闲置,制约了训练效率。AReaL系统通过完全异步的RL训练架构,彻底解耦模型的生成与训练过程,消除了同步等待时间,显著提升了硬件资源利用率。

AReaL系统面临异步带来的数据“陈旧度”挑战,即训练数据可能来自旧版本的模型。为此,团队设计了陈旧度感知训练机制,通过控制工作负载来平衡数据的新鲜度。同时,研究团队提出了解耦PPO目标函数,并支持“可中断生成”技术,允许模型在生成过程中无缝更新权重。实验结果表明,在数学和代码推理基准测试中,使用相同数量的GPU,AReaL相比最先进的同步系统,训练速度最高提升2.77倍,且模型的解题能力在部分任务上有所提升。

来源:一电快讯

返回第一电动网首页 >

7点赞
发表评论
热文榜
第一电动网官方微信

反馈和建议 在线回复

您的询价信息
已经成功提交我们稍后会联系您进行报价!

第一电动网
Hello world!