arXiv ID:
2512.19673
arXiv 提交日期: 2025-12-22
自底向上策略优化:你的语言模型策略中潜藏着内部策略 / Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies
1️⃣ 一句话总结
这篇论文发现大语言模型内部不同层和模块的策略功能各异,并据此提出了一种通过直接优化底层内部策略来提升模型复杂推理能力的新训练方法。