arXiv ID:
2603.29231
arXiv 提交日期: 2026-03-31
超越单次成功率:面向长周期大语言模型智能体的可靠性科学框架 / Beyond pass@1: A Reliability Science Framework for Long-Horizon LLM Agents
1️⃣ 一句话总结
这篇论文指出,衡量AI模型在单次任务中的成功率(能力)不足以评估其在长期、重复任务中的实际表现(可靠性),并提出了一个包含四个新指标的可靠性科学框架,通过大规模实验发现,模型的‘能力’排名与‘可靠性’排名在长周期任务中会显著不同,且最先进的模型反而更容易因尝试复杂策略而失败。