arXiv ID:
2512.06533
arXiv 提交日期: 2025-12-06
超越词元级监督:通过强化学习解锁基于解码的回归潜力 / Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一种新方法,通过强化学习让大语言模型在预测数值时更准确,解决了传统方法因只关注单个词元而忽略整体数值大小导致精度不足的问题。