arXiv ID:
2603.07927
arXiv 提交日期: 2026-03-09
SWE-Fuse:通过无问题轨迹学习和熵感知RLVR训练赋能软件代理 / SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training
1️⃣ 一句话总结
这篇论文提出了一种名为SWE-Fuse的新训练框架,它通过结合无问题描述的轨迹学习和一种能根据学习不确定性自动调整训练强度的强化学习方法,有效解决了现有AI软件代理因训练数据中问题描述与解决方案不匹配而性能受限的难题,从而显著提升了代理修复真实世界软件问题的能力。