📄 论文总结
OpenSIR:开放式自我改进推理器 / OpenSIR: Open-Ended Self-Improving Reasoner
1️⃣ 一句话总结
这篇论文提出了一个名为OpenSIR的自我学习框架,让大型语言模型通过扮演老师和学生的角色交替生成和解决新问题,在没有外部监督的情况下实现了从基础到高级数学能力的自主提升。
请先 登录 后再提交论文
OpenSIR:开放式自我改进推理器 / OpenSIR: Open-Ended Self-Improving Reasoner
这篇论文提出了一个名为OpenSIR的自我学习框架,让大型语言模型通过扮演老师和学生的角色交替生成和解决新问题,在没有外部监督的情况下实现了从基础到高级数学能力的自主提升。
AMO-Bench:大型语言模型在高中数学竞赛中仍表现不佳 / AMO-Bench: Large Language Models Still Struggle in High School Math Competitions
这篇论文提出了一个高难度的数学推理基准测试AMO-Bench,发现当前最先进的大型语言模型在解决奥林匹克级别数学问题时准确率仍然很低,最高仅为52.4%,表明AI在复杂数学推理方面仍有很大提升空间。
代理组织时代:利用语言模型进行组织学习 / The Era of Agentic Organization: Learning to Organize with Language Models
这篇论文提出了一种名为异步思维的新方法,让多个AI代理通过动态分工和协作来解决复杂问题,不仅推理速度更快,还能在数学推理等任务上取得更好效果,并且学到的协作能力可以直接应用到新任务中。
MathCanvas:用于多模态数学推理的内在视觉思维链 / MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning
这篇论文提出了一个名为MathCanvas的框架,通过预训练和微调让大型多模态模型学会在解决数学问题时自动生成和编辑图表,从而显著提升了其在几何等需要视觉辅助的数学领域的推理能力。
CodePlot-CoT:通过代码驱动图像进行数学视觉推理 / CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images
这项研究提出了一种利用代码生成图像辅助数学推理的新方法,通过构建大规模数据集和训练模型,显著提升了解决需要视觉辅助的数学问题的能力。
技能导向的自适应训练 / Skill-Targeted Adaptive Training
这篇论文提出了一种名为STAT的新方法,通过利用强大语言模型的元认知能力来识别学生模型的技能短板,并据此动态调整训练数据,从而在数学推理等任务上显著提升模型性能,且与强化学习方法互补。
首次尝试至关重要:反思推理模型中反思作用的再审视 / First Try Matters: Revisiting the Role of Reflection in Reasoning Models
这篇论文通过分析多个推理模型发现,模型在生成答案后的反思过程大多只是确认最初答案,很少能修正错误,因此提出了一种在推理时提前停止的方法,能在几乎不影响准确性的情况下大幅减少计算量。
免训练分组相对策略优化 / Training-Free Group Relative Policy Optimization
这篇论文提出了一种无需更新模型参数的轻量级方法,通过将高质量经验知识作为先验信息来指导大语言模型的行为,从而在少量数据下显著提升其在数学推理和网络搜索等任务中的表现。
LightReasoner:小语言模型能否教会大语言模型推理? / LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?
这项研究提出了一种名为LightReasoner的新方法,通过对比大小语言模型在推理过程中的行为差异,让小模型帮助大模型识别并强化其关键推理优势,从而在显著减少计算资源和数据需求的同时,大幅提升大模型的数学推理能力。
混合强化:当奖励稀疏时,密集更好 / Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense
这篇论文提出了一种名为HERO的混合强化学习框架,通过结合确定性验证器的稳定性和奖励模型的精细反馈,有效提升大语言模型在数学推理等任务中的性能,尤其在奖励信号稀疏或答案难以验证的情况下表现更优。