arXiv ID:
2512.21919
用于软件工程智能体的免执行反馈奖励模型 / SWE-RM: Execution-free Feedback For Software Engineering Agents
1️⃣ 一句话总结
本文提出了一种用于软件工程智能体的免执行反馈奖励模型SWE-RM,它不依赖单元测试执行,通过提供细粒度的连续反馈信号,克服了传统基于执行的反馈的局限性,并在测试时扩展和强化学习任务上均实现了显著的性能提升,创造了开源模型在SWE-Bench Verified基准上的新SOTA。