🤖 系统
11-30 17:42
📄 论文总结
SimKO:简单的Pass@K策略优化 / SimKO: Simple Pass@K Policy Optimization
1️⃣ 一句话总结
这篇论文提出了一种名为SimKO的新方法,通过非对称地调整模型在正确和错误答案上的概率分布,有效缓解了现有强化学习方法中过度关注单一答案而忽视其他可能性的问题,从而在数学和逻辑推理任务中显著提升了模型探索多种正确答案的能力。
请先 登录 后再提交论文
SimKO:简单的Pass@K策略优化 / SimKO: Simple Pass@K Policy Optimization
这篇论文提出了一种名为SimKO的新方法,通过非对称地调整模型在正确和错误答案上的概率分布,有效缓解了现有强化学习方法中过度关注单一答案而忽视其他可能性的问题,从而在数学和逻辑推理任务中显著提升了模型探索多种正确答案的能力。
再看一眼,慢思考:增强视觉语言模型中的视觉反思能力 / Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models
这篇论文提出了一种名为Reflection-V的新视觉推理模型,通过构建视觉中心推理数据和设计基于视觉注意力的强化学习奖励机制,有效增强了模型在推理过程中持续关注和利用视觉信息的能力,从而显著提升了多个视觉推理任务的性能。
面向深度研究的开放数据合成 / Open Data Synthesis For Deep Research
这篇论文提出了一个名为InfoSeek的框架,通过自动生成复杂的多步骤研究问题数据集,有效训练大语言模型进行深度推理,使小模型在复杂任务上能媲美甚至超越大模型的表现。