arXiv ID:
2602.03635
arXiv 提交日期: 2026-02-03
TRE:在信任区域内鼓励探索 / TRE: Encouraging Exploration in the Trust Region
1️⃣ 一句话总结
这篇论文提出了一种名为‘信任区域熵’的新方法,通过将探索限制在模型可信的范围内,有效解决了大语言模型在强化学习中因盲目探索而性能下降的问题,并在数学推理等多个任务上取得了更好的效果。