arXiv ID:
2510.08191
arXiv 提交日期: 2025-10-09
免训练分组相对策略优化 / Training-Free Group Relative Policy Optimization
1️⃣ 一句话总结
这篇论文提出了一种无需更新模型参数的轻量级方法,通过将高质量经验知识作为先验信息来指导大语言模型的行为,从而在少量数据下显著提升其在数学推理和网络搜索等任务中的表现。