arXiv ID:
2512.01925
从优化视角修正大语言模型的思维过程 / Rectifying LLM Thought from Lens of Optimization
1️⃣ 一句话总结
这篇论文提出了一种名为RePro的新方法,通过将大语言模型的推理过程看作优化步骤,并设计一个评估推理过程质量的奖励机制,来训练模型避免过度思考和冗长推理,从而提升其在数学、科学和编程等任务上的表现。