arXiv最新AI论文速览速学

🔍

标签: #coding agents ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks 06-11

arXiv ID: 2606.12344

arXiv 提交日期: 2026-06-10

agents benchmark llm coding agents evaluation swede-bench adapter protocol cost-aware

Claw-SWE-Bench：用于评估类OpenClaw智能体框架在编码任务上的基准测试 / Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks

1️⃣ 一句话总结

该论文提出了Claw-SWE-Bench，一个多语言编码任务基准测试，通过统一的评估协议和成本核算，揭示了智能体框架（如OpenClaw）的设计比起底层模型对编码性能影响更大，并提供了标准化的测试集来公平比较不同框架的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.29442

arXiv 提交日期: 2026-05-28

agents llm coding agents misalignment failure analysis developer study observational study

编程助手为何让用户失望：基于20,574个真实会话的大规模开发者与智能体错位分析 / How Coding Agents Fail Their Users: A Large-Scale Analysis of Developer-Agent Misalignment in 20,574 Real-World Sessions

1️⃣ 一句话总结

本文通过对逾两万个真实编程会话的深入分析，揭示了AI编程助手在理解项目、把握意图、遵循规则、行动边界、代码执行和进度汇报中反复出现的七类典型问题，其中九成故障虽不造成系统损坏，但绝大多数仍需用户手动纠正，为改进训练数据和交互设计提供了实证依据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.05400

arXiv 提交日期: 2026-05-06

agents llm machine learning coding agents context engineering methodology software development

为智能编码做好准备：将审慎准备作为上下文工程方法论 / Mise en Place for Agentic Coding: Deliberate Preparation as Context Engineering Methodology

1️⃣ 一句话总结

本文借鉴烹饪中“备料到位”的理念，提出一种在AI编码前进行系统化准备的三阶段方法（上下文奠定、协作细化、任务分解），通过案例验证其能大幅提升AI编码效率与质量，并定义了“上下文流畅度”作为开发者新技能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12301

arXiv 提交日期: 2026-04-14

llm agents systems token reduction coding agents cost optimization model cascading efficiency tactics

Local-Splitter：针对编码智能体工作负载，减少云端大语言模型令牌使用的七种策略的测量研究 / Local-Splitter: A Measurement Study of Seven Tactics for Reducing Cloud LLM Token Usage on Coding-Agent Workloads

1️⃣ 一句话总结

这项研究系统地测量了七种策略，通过让一个小型本地模型充当‘把关人’来筛选任务，从而有效减少调用昂贵云端大语言模型的令牌消耗，最高可节省79%的成本，并且发现最佳策略组合取决于具体的工作负载类型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11088

arXiv 提交日期: 2026-04-13

agents llm model evaluation coding agents agent configuration reward shaping constraint-based guidance evaluation

代理规则是塑造还是扭曲？在编码智能体中，防护栏比指导更有效 / Do Agent Rules Shape or Distort? Guardrails Beat Guidance in Coding Agents

1️⃣ 一句话总结

这篇论文通过大规模实验发现，为AI编码助手设置规则文件时，禁止性的‘防护栏’规则（如‘不要重构无关代码’）能有效提升性能，而指导性的‘应该做什么’规则反而有害，揭示了当前规则配置中隐藏的可靠性风险并给出了安全配置原则。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17104

arXiv 提交日期: 2026-03-17

agents benchmark model evaluation coding agents faithfulness long-horizon tasks specification tracking evaluation benchmark

当规范逐步浮现时：评估长周期编码智能体的忠实度损失 / When the Specification Emerges: Benchmarking Faithfulness Loss in Long-Horizon Coding Agents

1️⃣ 一句话总结

这篇论文创建了一个新的测试标准，用来衡量AI编程助手在长期、复杂的编程任务中，当项目需求是逐步给出而非一次性告知时，其最终代码实现与原始设计意图的偏离程度，并发现这种‘逐步告知’的方式会显著降低代码质量，同时提出了一个名为ProjectGuard的解决方案来有效缓解这个问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03800

arXiv 提交日期: 2026-03-04

agents model evaluation machine learning coding agents critic model rubric supervision sparse feedback reward learning

基于评分标准监督的稀疏现实世界结果评论模型 / A Rubric-Supervised Critic from Sparse Real-World Outcomes

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过分析人机交互过程中的行为特征来训练一个‘评论模型’，从而帮助AI编程助手在现实世界稀疏、延迟的反馈中更好地学习和决策，提升其实际应用效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20789

arXiv 提交日期: 2026-01-28

llm agents model training coding agents supervised finetuning synthetic data repository specialization cost efficiency

SERA：软验证高效代码库智能体 / SERA: Soft-Verified Efficient Repository Agents

1️⃣ 一句话总结

这篇论文提出了一种名为SERA的高效、低成本训练方法，能让开源的代码助手快速学习并精通某个私有代码库，其性能媲美顶尖模型，但训练成本仅为传统强化学习方法的1/26，从而首次将‘为私有代码库定制AI助手’这一理论优势变为现实。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.16746

arXiv 提交日期: 2026-01-23

llm agents systems context pruning coding agents software engineering efficiency long context

SWE-Pruner：面向编程智能体的自适应上下文剪枝框架 / SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

1️⃣ 一句话总结

这篇论文提出了一种名为SWE-Pruner的智能剪枝框架，它通过模仿程序员‘选择性浏览’代码的习惯，能根据当前编程任务的目标（如‘关注错误处理’）动态压缩冗长的代码上下文，从而在显著减少计算开销和延迟的同时，有效保留关键代码逻辑和细节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14027

arXiv 提交日期: 2026-01-20

agents llm systems theorem proving formal mathematics coding agents autonomous reasoning tool integration

Numina-Lean-Agent：一个用于形式化数学的开放通用智能体推理系统 / Numina-Lean-Agent: An Open and General Agentic Reasoning System for Formal Mathematics

1️⃣ 一句话总结

这篇论文提出了一个名为Numina-Lean-Agent的创新系统，它直接利用一个通用的代码生成AI作为核心推理引擎，无需专门训练，就能在形式化数学证明中取得顶尖性能，并成功解决了复杂的数学定理和竞赛题目。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.12344

1️⃣ 一句话总结

arXiv ID: 2605.29442

1️⃣ 一句话总结

arXiv ID: 2605.05400

1️⃣ 一句话总结

arXiv ID: 2604.12301

1️⃣ 一句话总结

arXiv ID: 2604.11088

1️⃣ 一句话总结

arXiv ID: 2603.17104

1️⃣ 一句话总结

arXiv ID: 2603.03800

1️⃣ 一句话总结

arXiv ID: 2601.20789

1️⃣ 一句话总结

arXiv ID: 2601.16746

1️⃣ 一句话总结

arXiv ID: 2601.14027

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.12344 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.29442 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.05400 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12301 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11088 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17104 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03800 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20789 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.16746 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14027 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.12344

arXiv ID: 2605.29442

arXiv ID: 2605.05400

arXiv ID: 2604.12301

arXiv ID: 2604.11088

arXiv ID: 2603.17104

arXiv ID: 2603.03800

arXiv ID: 2601.20789

arXiv ID: 2601.16746

arXiv ID: 2601.14027