arXiv ID:
2604.20835
并行监督微调:提升代码强化学习的零样本跨编程语言迁移能力 / Parallel-SFT: Improving Zero-Shot Cross-Programming-Language Transfer for Code RL
1️⃣ 一句话总结
本文提出Parallel-SFT方法,通过在监督微调阶段加入多种编程语言实现相同功能的“并行程序”数据,使后续的强化学习训练能更好地将编程能力从常见语言(如Python、C++)零样本迁移到资源较少的语言(如Rust、Julia)上,实验表明该方法能让模型内部对功能相同但语言不同的代码产生更紧密的表示聚类,从而提升迁移效果。