arXiv ID:
2603.17104
arXiv 提交日期: 2026-03-17
当规范逐步浮现时:评估长周期编码智能体的忠实度损失 / When the Specification Emerges: Benchmarking Faithfulness Loss in Long-Horizon Coding Agents
1️⃣ 一句话总结
这篇论文创建了一个新的测试标准,用来衡量AI编程助手在长期、复杂的编程任务中,当项目需求是逐步给出而非一次性告知时,其最终代码实现与原始设计意图的偏离程度,并发现这种‘逐步告知’的方式会显著降低代码质量,同时提出了一个名为ProjectGuard的解决方案来有效缓解这个问题。