arXiv ID:
2602.03392
arXiv 提交日期: 2026-02-03
论大语言模型强化微调中的熵动态 / On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models
1️⃣ 一句话总结
这篇论文建立了一个理论框架来分析大语言模型在强化微调过程中输出多样性的变化规律,并基于此提出了控制多样性的方法,以帮助模型在微调时更好地平衡探索新答案和利用已知知识。