6月5日音讯(报导:李楠)近来,清华清华蚂蚁联合研制的蚂蚁全异步强化学习练习体系AReaL-boba。2。联合(AReaL v0.3 )正式宣告开源。开源据了解,清华这一体系全面完结了异步强化学习练习 ,蚂蚁彻底解耦模型生成与练习 ,联合功能作用不变的开源前提下 ,练习速度对比上一版别最高提高2.77倍 ,清华GPU资源利用率大幅优化。蚂蚁研讨人员运用这一体系在Qwen3 系列模型上做强化学习练习,联合完结8B、开源14B 模型在 LiveCodeBench,清华 Codeforce, Codecontest 等benchmark上到达SOTA水准。 此外 ,蚂蚁 AReaL-boba。联合2 。还原生支撑多轮智能体强化学习练习 ,开发者能够依据自己的需求自在定制智能体和智能体环境,进行多智能体Agentic RL练习 。
寻觅统筹高效能 、高效率的强化学习练习方法,一直是从业人员继续面对的课题。在传统的强化学习练习流程中,同步强化学习练习每一个批次(batch)的数据都是由同一个模型版别发生,因而模型参数更新需求等候批次中数据悉数生成完结才干发动 。因为推理模型的输出长短差异极大 ,在相同的批巨细(batch size)下 ,强化学习练习有必要等候批次中最长的输出生成完才干继续进行练习,以及进行下一个批次的数据搜集,形成极大GPU资源糟蹋 。而异步强化学习(Asynchronous RL)将数据生成与模型练习彻底解耦,以不间断的流式生成和并行练习的核算方法,极大提高了资源运用率 ,天然适用于多次序交互的Agent场景 。业界以为,异步强化学习是一种重要的算法范式,将成为未来强化学习的重要方向之一。
在AReaL-boba。2。的工作中,研讨人员经过算法体系co-design的方法完结了彻底异步强化学习练习(fully asynchronous RL),从根本上处理了同步强化学习的各种问题。AReaL。–boba 。2。生成使命继续流式进行以保证GPU资源一直满载运转,杜绝了GPU闲暇。AReaL。–boba。2。的体系规划能够在保证安稳RL练习的一起 ,参数同步的通讯和核算花销仅占总练习时刻的1%以内 。此外 ,因为全异步RL中同批次数据或许由不同版别的模型发生,AReaL 。–boba。2。也对RL算法进行了晋级