新游热游: 全球国内手游盘点测试表开服表怀旧频道

品牌: 游戏X博士正惊游戏公众号

新闻大全

17173 > 游戏资讯 > 科技新闻 > 正文

边用边训：蚂蚁集团携手清华大学开源 AReaL 系统，训练 AI 推理最高提速 2.77 倍

2026-03-04 12:02:16 神评论

17173 新闻导语

蚂蚁集团与清华大学联合开源AReaL系统，通过异步强化学习技术，将AI推理模型训练速度最高提升2.77倍，同时保持高准确率。点击了解技术细节与性能突破！

3 月 4 日消息，蚂蚁集团携手清华大学联合推出开源强化学习训练框架 AReaL v1.0 稳定版，这是一种大规模异步强化学习系统，主要通过解耦生成与训练流程，来提升大语言模型（特别是推理模型）的训练效率。

援引博文介绍，随着大语言模型向“大推理模型”（LRM，Large Reasoning Model）演进，强化学习（RL）已成为提升模型逻辑推理能力的关键技术。

然而，现有的 RL 训练系统主流采用同步机制，即生成阶段必须等待批次中所有输出（通常是最长的那个）完成后才能开始训练。

这种“木桶效应”导致大量 GPU 算力处于闲置状态，制约了训练效率，在处理需要生成数万个思考 Token 的复杂推理任务时表现尤为明显。

研究团队为解决这一瓶颈，开发了 AReaL 系统，这是一个完全异步的 RL 训练架构。AReaL 彻底解耦了模型的生成与训练过程：生成工作器可以连续不断地产生新数据，而训练工作器则在收集到足够数据后立即更新模型。

这种流水线式的并行设计消除了同步等待时间，显著提升了硬件资源的利用率，让整个训练过程更加流畅高效。

在算法层面，AReaL 面临异步带来的数据“陈旧度”挑战，即训练数据可能来自旧版本的模型。为此，团队设计了陈旧度感知训练机制，通过控制工作负载来平衡数据的新鲜度。

同时，研究团队提出了解耦 PPO 目标函数，并支持“可中断生成”技术，允许模型在生成过程中无缝更新权重。

实验结果验证了 AReaL 的卓越性能。在数学和代码推理基准测试中，使用相同数量的 GPU，AReaL 相比最先进的同步系统，训练速度最高提升 2.77 倍。更令人惊喜的是，这种加速并未以牺牲准确率为代价，模型的解题能力在部分任务上甚至有所提升。

附上参考地址

arxiv 论文：《AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning》

GitHub 相关页面

【来源：IT之家】

关于AReaL,强化学习,大语言模型,异步训练,推理模型,训练效率,GPU,PPO,数学推理,代码推理的新闻

17173 首页全新改版规划中！现向各位玩家征集真实使用意见，你的想法将直接影响新版页面设计～动动手指填写问卷，快来共创你心仪的页面布局吧！ 参与问卷

今日热点

腾讯《卡厄斯梦境》国服公测前瞻，5.28上线

《暗黑：不朽》×《星际争霸》联动《魔兽》乌龟服正式关服

热点预告:《冒险岛》怀旧服首测!网易发布会来了

网易520发布会开幕《怪物猎人：旅人》启程测试

热门测试游戏

热门新闻排行

Wan网页游戏免费玩