arXiv ID:
2604.24525
理解代码审查机器人自动评估在实际应用中的局限性 / Understanding the Limits of Automated Evaluation for Code Review Bots in Practice
1️⃣ 一句话总结
这篇论文通过分析工业界真实数据和多个AI模型,发现完全依靠自动化方法评估代码审查机器人(ACR)的评论质量,效果有限,因为开发者的标签行为会受到工作流程和组织压力的影响,并非客观标准。