SWE-RM: Execution-free Feedback For Software Engineering Agents

📄 Abstract - SWE-RM: Execution-free Feedback For Software Engineering Agents

Execution-based feedback like unit testing is widely used in the development of coding agents through test-time scaling (TTS) and reinforcement learning (RL). This paradigm requires scalable and reliable collection of unit test cases to provide accurate feedback, and the resulting feedback is often sparse and cannot effectively distinguish between trajectories that are both successful or both unsuccessful. In contrast, execution-free feedback from reward models can provide more fine-grained signals without depending on unit test cases. Despite this potential, execution-free feedback for realistic software engineering (SWE) agents remains underexplored. Aiming to develop versatile reward models that are effective across TTS and RL, however, we observe that two verifiers with nearly identical TTS performance can nevertheless yield very different results in RL. Intuitively, TTS primarily reflects the model's ability to select the best trajectory, but this ability does not necessarily generalize to RL. To address this limitation, we identify two additional aspects that are crucial for RL training: classification accuracy and calibration. We then conduct comprehensive controlled experiments to investigate how to train a robust reward model that performs well across these metrics. In particular, we analyze the impact of various factors such as training data scale, policy mixtures, and data source composition. Guided by these investigations, we introduce SWE-RM, an accurate and robust reward model adopting a mixture-of-experts architecture with 30B total parameters and 3B activated during inference. SWE-RM substantially improves SWE agents on both TTS and RL performance. For example, it increases the accuracy of Qwen3-Coder-Flash from 51.6% to 62.0%, and Qwen3-Coder-Max from 67.0% to 74.6% on SWE-Bench Verified using TTS, achieving new state-of-the-art performance among open-source models.

用于软件工程智能体的免执行反馈奖励模型 / SWE-RM: Execution-free Feedback For Software Engineering Agents

1️⃣ 一句话总结

本文提出了一种用于软件工程智能体的免执行反馈奖励模型SWE-RM，它不依赖单元测试执行，通过提供细粒度的连续反馈信号，克服了传统基于执行的反馈的局限性，并在测试时扩展和强化学习任务上均实现了显著的性能提升，创造了开源模型在SWE-Bench Verified基准上的新SOTA。

2️⃣ 论文创新点

1. 免执行反馈奖励模型SWE-RM

创新点：提出了一种不依赖单元测试执行的奖励模型，为软件工程智能体提供细粒度的连续反馈信号。
区别/改进：克服了传统基于执行反馈（如单元测试）的稀疏性、对测试用例覆盖度的依赖以及无法区分同成功/同失败轨迹的缺点。
意义：为软件工程智能体的训练（特别是强化学习）提供了更有效、更通用的反馈机制，不依赖于难以获取或验证的单元测试。

2. 超越TTS的通用验证器评估框架

创新点：指出仅凭测试时选择（TTS）性能不足以评估奖励模型在强化学习中的有效性，必须同时考虑AUC（排序能力）和校准（ECE）指标。
区别/改进：超越了现有工作主要关注TTS的局限，提供了更全面的评估框架，揭示了为何TTS性能相近的验证器在RL中表现迥异。
意义：为开发在TTS和RL中均表现优异的“全能”奖励模型指明了方向，揭示了验证器质量中对RL训练至关重要但此前被忽视的属性。

3. 专家混合架构的奖励模型

创新点：SWE-RM采用了专家混合（Mixture-of-Experts）架构，总参数量为300亿，推理时激活30亿参数。
区别/改进：通过MoE架构在保持高效推理的同时，可能整合了更丰富的专业知识，以提升模型的准确性和鲁棒性。
意义：实现了高性能与高效率的平衡，使得该奖励模型能够有效应用于大规模的软件工程任务中。

4. 混合反馈强化学习

创新点：在强化学习训练中，将免执行的奖励模型反馈与基于执行的相关测试结果反馈相结合，形成混合奖励信号。
区别/改进：相比仅使用执行相关或仅使用执行无关反馈，混合反馈在SWE-bench Verified上取得了最高的pass@1分数，并实现了更快、更平滑的训练收敛。
意义：平衡了连续信号带来的训练效率与可验证信号带来的可靠性，为软件工程智能体的强化学习训练提供了更优的奖励塑造方法。

5. 数据规模与比例优化

创新点：通过大规模消融研究，系统探索了训练数据规模、正负样本比例、上下文长度、策略和数据源等因素对验证器性能的影响。
区别/改进：明确了SWE任务中奖励模型所需的最小有效数据量，并指出盲目扩大数据量的收益递减；确定了2:1的正负样本比例在AUC、校准和测试时扩展性能上达到最佳平衡。
意义：为高效训练鲁棒的SWE奖励模型提供了数据规模指导，有助于平衡计算成本与模型性能。

3️⃣ 主要结果与价值

结果亮点

SWE-RM在TTS评估中，在AUC、ECE和RM@32三个核心能力指标上全面超越了包括Agentless、SWE-Gym Verifier、DeepSWE-EB/EF在内的基线方法，展示了其卓越的判别和校准能力。
在Qwen3-Coder系列模型上，SWE-RM将pass@1提升了7-10个百分点；在OpenHands-LM-32B上也取得了最高性能，证明了其良好的泛化性。
混合反馈强化学习在SWE-bench Verified上比纯执行相关反馈提升了约3个绝对百分点的pass@1（达到54.8%），并实现了更快、更平滑的训练收敛。
研究首次实现了支持256k上下文的执行无关验证器，解决了挑战性问题通常涉及极长上下文的评分难题，并随着可评分轨迹增多，测试时扩展性能持续提升。

实际价值

为软件工程智能体（特别是代码生成与修复代理）的训练提供了更可靠、更高效的反馈机制，降低了对高质量、全覆盖单元测试的依赖。
提出的多维评估框架（TTS+AUC+校准）为未来奖励模型的设计与评估提供了重要指导，有助于开发更稳健的强化学习训练系统。
混合反馈策略为在复杂、长上下文的软件工程任务中有效应用强化学习开辟了一条新路径，可能解决RLVR（从可验证奖励中学习）的关键瓶颈。
研究结论（如数据配比、上下文长度扩展）可直接应用于构建更强大的软件工程专用奖励模型，加速相关领域的研究与应用落地。

4️⃣ 术语表

SWE-RM：本文提出的用于软件工程智能体的免执行反馈奖励模型，采用专家混合架构，在TTS和RL任务中均表现出SOTA性能。
SWE-Bench Verified：一个用于评估软件工程智能体在真实GitHub问题上修复能力的基准测试集，包含500个人工验证任务，是本研究强化学习评估的主要平台。
TTS：测试时选择，一种评估指标，用于检查正确的解决方案轨迹是否在一组候选轨迹中排名最高。是评估奖励模型核心能力（如判别、校准）的关键下游任务。
AUC：曲线下面积，用于评估奖励模型对不同轨迹进行正确相对排序的能力，是衡量其在强化学习中有效性的关键指标之一。
校准 / ECE：校准指验证器评分作为正确性似然代理的可靠性。预期校准误差（ECE）用于量化模型预测置信度与实际准确率之间的一致性，值越低表示校准越好。在强化学习中直接影响奖励信号的大小和策略更新的稳定性。
专家混合 (MoE)：一种神经网络架构，模型包含多个“专家”子网络，每个输入仅激活一部分专家，从而在保持高参数容量的同时实现高效推理。SWE-RM采用此架构，总参数量300亿，激活参数量30亿。
混合反馈 (Hybrid feedback)：指在强化学习中使用的混合奖励信号，由免执行的奖励模型分数（ScoreEF）和执行相关的任务解决状态（如issue resolve, unfinished）共同构成。
RM@32：一种测试时扩展性能的评估指标，具体指在特定设置（如采样32个轨迹）下的奖励模型性能。

← 返回列表

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 免执行反馈奖励模型SWE-RM

2. 超越TTS的通用验证器评估框架

3. 专家混合架构的奖励模型

4. 混合反馈强化学习

5. 数据规模与比例优化

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 免执行反馈奖励模型SWE-RM

2. 超越TTS的通用验证器评估框架

3. 专家混合架构的奖励模型

4. 混合反馈强化学习

5. 数据规模与比例优化

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要