arXiv ID:
2602.12036
arXiv 提交日期: 2026-02-12
组合式强化学习:为大型语言模型的强化学习构建可验证提示 / Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models
1️⃣ 一句话总结
这篇论文提出了一种名为Composition-RL的新方法,通过自动组合多个简单问题来生成新的、更复杂的训练提示,从而更有效地利用有限的可验证数据来提升大型语言模型的推理能力。