📄 论文总结
AI编码代理重构的实证研究 / Agentic Refactoring: An Empirical Study of AI Coding Agents
1️⃣ 一句话总结
这项研究发现AI编码代理在软件开发中频繁执行重构任务,但主要进行变量重命名等局部优化,而非人类常见的大型设计重构,且能小幅改善代码结构质量。
请先 登录 后再提交论文
AI编码代理重构的实证研究 / Agentic Refactoring: An Empirical Study of AI Coding Agents
这项研究发现AI编码代理在软件开发中频繁执行重构任务,但主要进行变量重命名等局部优化,而非人类常见的大型设计重构,且能小幅改善代码结构质量。
CodeClash:面向目标的软件工程基准测试 / CodeClash: Benchmarking Goal-Oriented Software Engineering
这篇论文提出了一个名为CodeClash的基准测试平台,通过多轮竞赛评估语言模型在开放目标下自主优化代码的能力,发现当前模型在战略规划和长期代码维护方面存在明显不足,难以与人类程序员匹敌。
Diff-XYZ:一个用于评估代码差异理解的基准 / Diff-XYZ: A Benchmark for Evaluating Diff Understanding
这篇论文提出了一个名为Diff-XYZ的基准测试,用于评估大型语言模型理解和处理代码变更的能力,并通过实验发现不同格式的代码差异表示适用于不同规模和任务的模型。
LoCoBench:复杂软件工程中长上下文大语言模型的基准测试 / LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering
这篇论文提出了一个名为LoCoBench的基准测试工具,专门用于评估长上下文大语言模型在复杂软件开发任务中的表现,填补了现有测试在跨文件代码理解和大型系统架构分析方面的空白。
A.S.E:一个用于评估AI生成代码安全性的仓库级基准 / A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code
这篇论文提出了一个名为A.S.E的仓库级基准测试,用于评估AI生成代码的安全性,发现当前大语言模型在真实编程场景中仍难以生成安全代码,且代码复杂度增加时模型表现会下降。
Kimi K2:开放代理智能 / Kimi K2: Open Agentic Intelligence
这篇论文介绍了名为Kimi K2的先进开源大语言模型,它通过创新的优化技术和多阶段训练方法,在软件工程和自主代理任务中表现出顶尖性能,无需复杂思考过程就能高效处理多种复杂任务。