arXiv ID:
2604.02288
arXiv 提交日期: 2026-04-02
通过样本路由统一组相对与自蒸馏策略优化 / Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing
1️⃣ 一句话总结
这篇论文提出了一种名为SRPO的新方法,它巧妙地结合了两种现有强化学习技术的优点,通过智能地将不同质量的训练样本分配给不同的优化策略,从而在训练大语言模型时实现了既快速提升效果又保持长期稳定的目标,最终在多个测试中超越了现有最佳方法。