用于软件工程智能体的免执行反馈奖励模型 / SWE-RM: Execution-free Feedback For Software Engineering Agents
1️⃣ 一句话总结
本文提出了一种用于软件工程智能体的免执行反馈奖励模型SWE-RM,它不依赖单元测试执行,通过提供细粒度的连续反馈信号,克服了传统基于执行的反馈的局限性,并在测试时扩展和强化学习任务上均实现了显著的性能提升,创造了开源模型在SWE-Bench Verified基准上的新SOTA。
2️⃣ 论文创新点
1. 免执行反馈奖励模型SWE-RM
- 创新点:提出了一种不依赖单元测试执行的奖励模型,为软件工程智能体提供细粒度的连续反馈信号。
- 区别/改进:克服了传统基于执行反馈(如单元测试)的稀疏性、对测试用例覆盖度的依赖以及无法区分同成功/同失败轨迹的缺点。
- 意义:为软件工程智能体的训练(特别是强化学习)提供了更有效、更通用的反馈机制,不依赖于难以获取或验证的单元测试。
2. 超越TTS的通用验证器评估框架
- 创新点:指出仅凭测试时选择(TTS)性能不足以评估奖励模型在强化学习中的有效性,必须同时考虑AUC(排序能力)和校准(ECE)指标。
- 区别/改进:超越了现有工作主要关注TTS的局限,提供了更全面的评估框架,揭示了为何TTS性能相近的验证器在RL中表现迥异。
- 意义:为开发在TTS和RL中均表现优异的“全能”奖励模型指明了方向,揭示了验证器质量中对RL训练至关重要但此前被忽视的属性。
3. 专家混合架构的奖励模型
- 创新点:SWE-RM采用了专家混合(Mixture-of-Experts)架构,总参数量为300亿,推理时激活30亿参数。
- 区别/改进:通过MoE架构在保持高效推理的同时,可能整合了更丰富的专业知识,以提升模型的准确性和鲁棒性。
- 意义:实现了高性能与高效率的平衡,使得该奖励模型能够有效应用于大规模的软件工程任务中。
4. 混合反馈强化学习
- 创新点:在强化学习训练中,将免执行的奖励模型反馈与基于执行的相关测试结果反馈相结合,形成混合奖励信号。
- 区别/改进:相比仅使用执行相关或仅使用执行无关反馈,混合反馈在SWE-bench Verified上取得了最高的pass@1分数,并实现了更快、更平滑的训练收敛。
- 意义:平衡了连续信号带来的训练效率与可验证信号带来的可靠性,为软件工程智能体的强化学习训练提供了更优的奖励塑造方法。
5. 数据规模与比例优化
- 创新点:通过大规模消融研究,系统探索了训练数据规模、正负样本比例、上下文长度、策略和数据源等因素对验证器性能的影响。
- 区别/改进:明确了SWE任务中奖励模型所需的最小有效数据量,并指出盲目扩大数据量的收益递减;确定了2:1的正负样本比例在AUC、校准和测试时扩展性能上达到最佳平衡。
- 意义:为高效训练鲁棒的SWE奖励模型提供了数据规模指导,有助于平衡计算成本与模型性能。
3️⃣ 主要结果与价值
结果亮点
- SWE-RM在TTS评估中,在AUC、ECE和RM@32三个核心能力指标上全面超越了包括Agentless、SWE-Gym Verifier、DeepSWE-EB/EF在内的基线方法,展示了其卓越的判别和校准能力。
- 在Qwen3-Coder系列模型上,SWE-RM将pass@1提升了7-10个百分点;在OpenHands-LM-32B上也取得了最高性能,证明了其良好的泛化性。
- 混合反馈强化学习在SWE-bench Verified上比纯执行相关反馈提升了约3个绝对百分点的pass@1(达到54.8%),并实现了更快、更平滑的训练收敛。
- 研究首次实现了支持256k上下文的执行无关验证器,解决了挑战性问题通常涉及极长上下文的评分难题,并随着可评分轨迹增多,测试时扩展性能持续提升。
实际价值
- 为软件工程智能体(特别是代码生成与修复代理)的训练提供了更可靠、更高效的反馈机制,降低了对高质量、全覆盖单元测试的依赖。
- 提出的多维评估框架(TTS+AUC+校准)为未来奖励模型的设计与评估提供了重要指导,有助于开发更稳健的强化学习训练系统。
- 混合反馈策略为在复杂、长上下文的软件工程任务中有效应用强化学习开辟了一条新路径,可能解决RLVR(从可验证奖励中学习)的关键瓶颈。
- 研究结论(如数据配比、上下文长度扩展)可直接应用于构建更强大的软件工程专用奖励模型,加速相关领域的研究与应用落地。
4️⃣ 术语表
- SWE-RM:本文提出的用于软件工程智能体的免执行反馈奖励模型,采用专家混合架构,在TTS和RL任务中均表现出SOTA性能。
- SWE-Bench Verified:一个用于评估软件工程智能体在真实GitHub问题上修复能力的基准测试集,包含500个人工验证任务,是本研究强化学习评估的主要平台。
- TTS:测试时选择,一种评估指标,用于检查正确的解决方案轨迹是否在一组候选轨迹中排名最高。是评估奖励模型核心能力(如判别、校准)的关键下游任务。
- AUC:曲线下面积,用于评估奖励模型对不同轨迹进行正确相对排序的能力,是衡量其在强化学习中有效性的关键指标之一。
- 校准 / ECE:校准指验证器评分作为正确性似然代理的可靠性。预期校准误差(ECE)用于量化模型预测置信度与实际准确率之间的一致性,值越低表示校准越好。在强化学习中直接影响奖励信号的大小和策略更新的稳定性。
- 专家混合 (MoE):一种神经网络架构,模型包含多个“专家”子网络,每个输入仅激活一部分专家,从而在保持高参数容量的同时实现高效推理。SWE-RM采用此架构,总参数量300亿,激活参数量30亿。
- 混合反馈 (Hybrid feedback):指在强化学习中使用的混合奖励信号,由免执行的奖励模型分数(ScoreEF)和执行相关的任务解决状态(如issue resolve, unfinished)共同构成。
- RM@32:一种测试时扩展性能的评估指标,具体指在特定设置(如采样32个轨迹)下的奖励模型性能。