IT之家 11 月 20 日消息,蚂蚁集团今日宣布开源万亿参数强化学习高性能权重交换框架 Awex。
据介绍,Awex 是为极致性能打造的训练推理引擎权重同步框架,解决 RL 流程中训练权重参数同步到推理模型的核心难题,可在秒级完成 TB 级大规模参数交换,显著降低 RL 模型训练延迟,主要特点如下:
Awex 权重交换框架整体主要由三个组件组成:
权重交换的核心功能模块主要由 5 个部分组成:
同时 Awex 也支持对权重进行 Tensor 级别的校验,将通过文件系统模式加载的权重跟通过传输模式加载的权重进行 Tensor 级别的细粒度比对,逐个判断差异,保证传输模式的正确性。
在千卡规模的集群上,Awex 使用 NCCL 传输数据可以在一秒内完成 10B 规模的模型权限交换,二十秒内完成 1T 规模的模型权重交换,使用 RDMA 进行传输,1T 模型权重交换耗时可以进一步缩短到六秒钟。
未来展望,Awex 是蚂蚁 ASystem 强化学习系统的核心组件之一,而 ASystem 是百灵万亿模型训练的坚实基础。我们将在未来陆续开源 ASystem 的其他核心 RL 组件,进一步完善开源强化学习训练生态。目前 Awex 开源版已支持 Megatron 和 SGLang 引擎。


