🤖 系统
11-30 17:42
📄 论文总结
SimKO:简单的Pass@K策略优化 / SimKO: Simple Pass@K Policy Optimization
1️⃣ 一句话总结
这篇论文提出了一种名为SimKO的新方法,通过非对称地调整模型在正确和错误答案上的概率分布,有效缓解了现有强化学习方法中过度关注单一答案而忽视其他可能性的问题,从而在数学和逻辑推理任务中显著提升了模型探索多种正确答案的能力。
请先 登录 后再提交论文
SimKO:简单的Pass@K策略优化 / SimKO: Simple Pass@K Policy Optimization
这篇论文提出了一种名为SimKO的新方法,通过非对称地调整模型在正确和错误答案上的概率分布,有效缓解了现有强化学习方法中过度关注单一答案而忽视其他可能性的问题,从而在数学和逻辑推理任务中显著提升了模型探索多种正确答案的能力。