← 返回列表

🤖 系统

📄 Abstract - SurveyBench: A Benchmark Framework for Evaluating LLM-Generated Academic Survey Capabilities

⏳ 正在获取摘要...

顶级标签: llm

📄 论文总结

SurveyBench：用于评估大语言模型自动生成学术综述能力的基准框架

SurveyBench: A Benchmark Framework for Evaluating LLM-Generated Academic Survey Capabilities

1️⃣ 一句话总结

SurveyBench是一个细粒度、测试驱动的评估框架，用于全面评估大语言模型自动生成学术综述的能力，解决了现有方法在引用平衡性、内容覆盖深度和洞察力等方面的不足。

2️⃣ 论文创新点

1. SurveyBench评估框架

创新点是什么：提出一个用于评估LLM自动生成学术综述能力的基准，包含精选主题数据集、多维度指标体系和双模式评估协议
与已有方法的区别/改进：改进了现有评估方法仅关注表面流畅性的不足，通过基于测试的方式显式对齐读者的信息需求，更严谨地揭示LLM生成综述的缺陷
为什么有意义：为自动化学术综述生成领域提供了更可靠、更贴近读者需求的评估标准，有助于推动该领域的发展

2. 多维度评估指标体系

创新点是什么：从大纲质量和内容质量两个关键方面评估综述质量的综合指标体系
与已有方法的区别/改进：相比传统单一评估，增加了结构层次、丰富度等量化指标
为什么有意义：为自动评估学术综述质量提供了系统化的标准框架

3. 基于测试的综述评估方法

创新点是什么：使用'启发思考'的测试来评估LLM生成的综述，不依赖人工撰写的参考
与已有方法的区别/改进：通过检索增强的上下文选择和LLM答案验证，减少幻觉并促进基于参考的推理
为什么有意义：提供了一种无需人工参考即可评估综述质量的新方法，增强了评估的客观性和可扩展性

3️⃣ 主要结果与价值

实验结果亮点

LLM生成的综述在表达和结构上流畅，但在内容丰富度和基于测试的评估上显著落后于人工撰写
揭示了LLM生成综述的两个主要缺陷：细节不足和缺乏关联推理能力
旧主题因文献更丰富、结构更成熟而表现普遍更好，新兴主题处理能力有限

实际应用价值

为开发更高质量的自动学术综述生成系统提供了可靠的评估基准
帮助识别LLM在技术细节、推理和核心思想抽象方面的不足，指导模型改进方向
促进了自动化学术综述写作领域的标准化评估和针对性优化

4️⃣ 术语表

SurveyBench：一个用于评估LLM自动生成学术综述能力的细粒度、基于测试的评估基准
LLM4Survey：利用大语言模型或LLM驱动的智能体自动生成学术综述的方法或任务
RAG：检索增强生成，一种结合检索和生成的技术，用于基于检索到的文档生成答案
Richness：丰富度指标，量化非文本元素在综述中的比例，计算公式为 Richness = λ · (N_non-text / ∑L_i)，其中N_non-text是非文本元素总数，∑L_i是所有章节总长度，λ是可调超参数
LLM-as-judge：使用大型语言模型作为评判者来评估生成内容的质量
Quiz-based Evaluation：基于测试的评估方法，通过生成和回答测试来评估综述质量
Topic Recency：主题新旧程度，按对应人工撰写综述的首版发布时间划分
Robust optimization：鲁棒优化方法，关注在参数不确定性或扰动情况下仍能保持性能的优化解决方案
Explainable computer vision：可解释计算机视觉，使计算机视觉系统的决策过程对人类可理解和可解释的研究领域

📄 打开原文 PDF