蚂蚁集团开源Awex框架，秒级完成TB级参数交换

IT之家 11 月 20 日消息，蚂蚁集团今日宣布开源万亿参数强化学习高性能权重交换框架 Awex。

据介绍，Awex 是为极致性能打造的训练推理引擎权重同步框架，解决 RL 流程中训练权重参数同步到推理模型的核心难题，可在秒级完成 TB 级大规模参数交换，显著降低 RL 模型训练延迟，主要特点如下：

Awex 权重交换框架整体主要由三个组件组成：

权重交换的核心功能模块主要由 5 个部分组成：

同时 Awex 也支持对权重进行 Tensor 级别的校验，将通过文件系统模式加载的权重跟通过传输模式加载的权重进行 Tensor 级别的细粒度比对，逐个判断差异，保证传输模式的正确性。

在千卡规模的集群上，Awex 使用 NCCL 传输数据可以在一秒内完成 10B 规模的模型权限交换，二十秒内完成 1T 规模的模型权重交换，使用 RDMA 进行传输，1T 模型权重交换耗时可以进一步缩短到六秒钟。

未来展望，Awex 是蚂蚁 ASystem 强化学习系统的核心组件之一，而 ASystem 是百灵万亿模型训练的坚实基础。我们将在未来陆续开源 ASystem 的其他核心 RL 组件，进一步完善开源强化学习训练生态。目前 Awex 开源版已支持 Megatron 和 SGLang 引擎。