arXiv ID:
2602.04265
从“增厚”到“减薄”:基于人类学习动态的奖励塑造方法用于大语言模型推理 / Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning
1️⃣ 一句话总结
这篇论文提出了一种名为T2T的动态奖励框架,它模仿人类学习过程,在模型推理错误时鼓励探索更长的解题路径以拓宽思路,在推理正确时则奖励简洁表达以提升效率,从而显著提升大语言模型在数学推理任务上的表现。