arXiv ID:
2604.25345
arXiv 提交日期: 2026-04-28
看似合理却错误:天体物理工作流中智能体失败案例研究 / Plausible but Wrong: A case study on Agentic Failures in Astrophysical Workflows
1️⃣ 一句话总结
本文通过测试一个名为CMBAgent的AI系统在天体物理任务中的表现,发现其最危险的问题并非直接报错,而是自信地生成语法正确但物理上错误的结果,尤其在复杂推理任务中难以自我察觉。