arXiv ID:
2605.25360
arXiv 提交日期: 2026-05-25
为多语言策略优化学习路由语言 / Learning to Route Languages for Multilingual Policy Optimization
1️⃣ 一句话总结
本文提出了一种名为语言路由策略优化的新方法,通过将语言视为可选择的变量,并利用多臂老虎机算法动态决定在强化学习中探索哪些语言,从而在有限的计算资源下更有效地利用多语言数据提升大模型的跨语言表现。