arXiv最新AI论文速览速学

📄

2511.04824

🤖 系统

11-30 17:51

agents systems model evaluation

coding agents software refactoring empirical study code quality software engineering

📄 论文总结

AI编码代理重构的实证研究 / Agentic Refactoring: An Empirical Study of AI Coding Agents

1️⃣ 一句话总结

这项研究发现AI编码代理在软件开发中频繁执行重构任务，但主要进行变量重命名等局部优化，而非人类常见的大型设计重构，且能小幅改善代码结构质量。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.00839

🤖 系统

11-30 17:48

benchmark agents model evaluation

software engineering code competition multi-round tournaments autonomous coding strategic reasoning

📄 论文总结

CodeClash：面向目标的软件工程基准测试 / CodeClash: Benchmarking Goal-Oriented Software Engineering

1️⃣ 一句话总结

这篇论文提出了一个名为CodeClash的基准测试平台，通过多轮竞赛评估语言模型在开放目标下自主优化代码的能力，发现当前模型在战略规划和长期代码维护方面存在明显不足，难以与人类程序员匹敌。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.12487

🤖 系统

11-30 17:41

llm benchmark model evaluation

code diff evaluation benchmark diff representation code editing software engineering

📄 论文总结

Diff-XYZ：一个用于评估代码差异理解的基准 / Diff-XYZ: A Benchmark for Evaluating Diff Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为Diff-XYZ的基准测试，用于评估大型语言模型理解和处理代码变更的能力，并通过实验发现不同格式的代码差异表示适用于不同规模和任务的模型。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2509.09614

🤖 系统

11-30 17:31

llm benchmark model evaluation

long-context evaluation code understanding software engineering multi-file reasoning performance degradation

📄 论文总结

LoCoBench：复杂软件工程中长上下文大语言模型的基准测试 / LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering

1️⃣ 一句话总结

这篇论文提出了一个名为LoCoBench的基准测试工具，专门用于评估长上下文大语言模型在复杂软件开发任务中的表现，填补了现有测试在跨文件代码理解和大型系统架构分析方面的空白。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2508.18106

🤖 系统

11-30 17:24

llm benchmark model evaluation

code generation security evaluation software engineering repository-level testing ai-generated code

📄 论文总结

A.S.E：一个用于评估AI生成代码安全性的仓库级基准 / A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

1️⃣ 一句话总结

这篇论文提出了一个名为A.S.E的仓库级基准测试，用于评估AI生成代码的安全性，发现当前大语言模型在真实编程场景中仍难以生成安全代码，且代码复杂度增加时模型表现会下降。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2507.20534

🤖 系统

11-30 17:24

llm agents model training

mixture-of-experts reinforcement learning agentic intelligence model optimization software engineering

📄 论文总结

Kimi K2：开放代理智能 / Kimi K2: Open Agentic Intelligence

1️⃣ 一句话总结

这篇论文介绍了名为Kimi K2的先进开源大语言模型，它通过创新的优化技术和多阶段训练方法，在软件工程和自主代理任务中表现出顶尖性能，无需复杂思考过程就能高效处理多种复杂任务。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2511.04824

📄 论文总结

1️⃣ 一句话总结

2511.00839

📄 论文总结

1️⃣ 一句话总结

2510.12487

📄 论文总结

1️⃣ 一句话总结

2509.09614

📄 论文总结

1️⃣ 一句话总结

2508.18106

📄 论文总结

1️⃣ 一句话总结

2507.20534

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2511.04824 📝

📄 论文总结

1️⃣ 一句话总结

2511.00839 📝

📄 论文总结

1️⃣ 一句话总结

2510.12487 📝

📄 论文总结

1️⃣ 一句话总结

2509.09614 📝

📄 论文总结

1️⃣ 一句话总结

2508.18106 📝

📄 论文总结

1️⃣ 一句话总结

2507.20534 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2511.04824

2511.00839

2510.12487

2509.09614

2508.18106

2507.20534