arXiv ID:
2605.14366
arXiv 提交日期: 2026-05-14
基于语义奖励的强化学习实现低资源语言扩展且无对齐代价 / Reinforcement Learning with Semantic Rewards Enables Low-Resource Language Expansion without Alignment Tax
1️⃣ 一句话总结
该研究提出一种用语义奖励代替传统文本匹配的强化学习方法,让大模型在扩展低资源语言能力时,既能学会新语言任务,又不会忘记已有的通用知识,解决了常见微调方法中‘学会新语言就丢失原有能力’的难题。