arXiv ID:
2602.10819
arXiv 提交日期: 2026-02-11
RePO:通过重述策略优化桥接在线策略学习与离线策略知识 / RePO: Bridging On-Policy Learning and Off-Policy Knowledge through Rephrasing Policy Optimization
1️⃣ 一句话总结
这篇论文提出了一种名为RePO的新方法,通过让大语言模型先理解外部的高质量知识,再将其重述成符合自身风格的数据来训练,从而既稳定又高效地提升了模型在特定领域任务上的表现。