← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: llm
详细标签: multi-hop reasoning error classification automated evaluation model robustness chain-of-thought 或 搜索:

📄 论文总结


1️⃣ 一句话总结

这篇论文系统分析了多跳问答(multi-hop QA)任务中大型语言模型的推理失败模式,提出了一个基于跳数(hops)、覆盖率(coverage)和过度思考(overthinking)的三维错误分类框架,并通过实验揭示了模型规模、任务复杂性与错误类型的关联性,为改进推理模型的鲁棒性提供了方法论支持。


2️⃣ 论文创新点

1. 三维错误分类框架

2. LLM-as-a-Judge自动化评估框架

3. 动态错误分类迭代方法

4. 跨数据集与模型规模的系统性分析


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表


(总结基于10个chunk的整合,去重合并冗余信息,突出核心贡献与跨学科可读性。)

📄 打开原文 PDF