arXiv ID:
2604.11554
arXiv 提交日期: 2026-04-13
Relax:一个用于大规模全模态后训练的异步强化学习引擎 / Relax: An Asynchronous Reinforcement Learning Engine for Omni-Modal Post-Training at Scale
1️⃣ 一句话总结
这篇论文提出了一个名为Relax的开源强化学习训练引擎,它通过创新的三层架构设计,解决了大模型在多模态和长流程任务中进行强化学习后训练时遇到的数据异构、大规模运行稳定性以及训练效率与数据新鲜度难以兼顾的三大核心挑战,显著提升了训练速度和系统稳定性。