arXiv ID:
2602.21887
arXiv 提交日期: 2026-02-25
ExpLang:通过策略性思考语言选择改进大语言模型推理中的探索与利用 / ExpLang: Improved Exploration and Exploitation in LLM Reasoning with On-Policy Thinking Language Selection
1️⃣ 一句话总结
这篇论文提出了一种名为ExpLang的新方法,它允许大语言模型在强化学习训练过程中自主选择使用哪种语言进行内部思考,从而通过利用多语言优势来提升模型的推理能力和最终表现。