arXiv ID:
2602.03352
arXiv 提交日期: 2026-02-03
PEGRL:通过后编辑引导的强化学习改进机器翻译 / PEGRL: Improving Machine Translation by Post-Editing Guided Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一种名为PEGRL的两阶段强化学习方法,通过引入‘后编辑’作为辅助任务来稳定训练过程,从而更有效地指导大型语言模型进行机器翻译,在多个语言对上取得了比现有强化学习方法更好的效果。