← 返回列表

👤 yu 来源: https://arxiv.org/pdf/2501.10120

📄 Abstract - PaSa: A Large Language Model-based Paper Search Agent

⏳ 正在获取摘要...

顶级标签: llm agents systems

📄 论文总结

PaSa：基于大语言模型的学术论文搜索智能体

PaSa: A Large Language Model-based Paper Search Agent

1️⃣ 一句话总结

PaSa是一个基于大语言模型的学术论文搜索智能体，通过自主调用搜索工具、阅读论文和选择参考文献来处理复杂学术查询，在合成数据集AutoScholarQuery和真实基准RealScholarQuery上显著优于现有基线方法。

2️⃣ 论文创新点

1. 双代理架构设计

创新点是什么：采用Crawler和Selector两个LLM智能体分工协作，Crawler负责生成搜索查询、检索论文并探索引用网络以最大化召回率，Selector负责精确筛选符合用户需求的论文
与已有方法的区别/改进：相比传统检索系统，能够处理复杂细粒度的学术查询，提高了搜索的全面性和准确性
为什么有意义：提升了学术搜索的效率和准确性，减少研究人员文献调研时间

2. AutoScholarQuery合成数据集

创新点是什么：通过GPT-4o从顶级AI会议论文的Related Work章节自动生成细粒度学术查询，构建包含35,000个查询-论文对的高质量数据集
与已有方法的区别/改进：解决了学术搜索领域高质量训练数据缺乏的问题，为强化学习训练提供了可靠的监督信号
为什么有意义：为论文搜索代理的训练和评估提供了标准化的基准数据集

3. 会话式PPO训练方法

创新点是什么：针对论文搜索任务设计的新型强化学习训练方法，将长轨迹分解为以[Stop]动作结束的会话单元，解决了稀疏奖励和长轨迹两个关键挑战
与已有方法的区别/改进：专门优化了学术搜索中的特殊问题，提高了训练效率，能够处理涉及数百篇论文的复杂搜索轨迹
为什么有意义：使代理能够处理涉及数百篇论文的复杂搜索轨迹，提升了在真实场景中的表现

4. 混合奖励机制

创新点是什么：结合AutoScholarQuery匹配和Selector模型判断来定义奖励函数，缓解了仅依赖有限标注数据导致的奖励稀疏问题
与已有方法的区别/改进：缓解了仅依赖有限标注数据导致的奖励稀疏问题，提高了训练稳定性和代理性能
为什么有意义：提高了训练稳定性和代理性能，为学术搜索提供了有效的奖励设计方法

3️⃣ 主要结果与价值

实验结果亮点

PaSa-7b在Recall@20和Recall@50指标上分别超过最佳基线37.78%和39.90%
在真实学术搜索场景中，相比PaSa-GPT-4o在召回率和精确率上分别提升30.36%和4.25%
移除[Expand]动作导致召回率显著下降（AutoScholarQuery下降22.98%，RealScholarQuery下降32.21%）
RL训练分别提升6.24%和19.96%的召回率，使用Selector作为奖励模型对性能提升至关重要

实际应用价值

为研究人员提供了高效的学术文献检索工具，显著减少文献调研时间
通过多Crawler集成（PaSa-7b-ensemble）可以进一步提升性能，在AutoScholarQuery上爬虫召回率提升3.34%
奖励系数α调整机制提供了灵活的行为调控手段，α从0.5增加到2.0时，召回率从0.7227提升到0.8063
时间过滤机制模拟真实学术搜索场景中的时间约束条件，确保实验设置符合实际研究需求

4️⃣ 术语表

PaSa：Paper Search Agent，基于大语言模型的学术论文搜索智能体系统
AutoScholarQuery：包含35k细粒度学术查询和对应论文的合成高质量学术搜索数据集，源自顶级AI会议论文
RealScholarQuery：由真实用户查询组成的测试数据集，包含50个精细查询和人工标注相关论文，用于在更现实场景中评估学术搜索系统
Recall@20/50：评估指标，表示在前20/50个结果中检索到的相关论文比例
Crawler：用于检索和处理学术论文的智能代理系统，负责扩大检索范围
Selector：基于Qwen2.5-7b的LLM代理，负责判断论文是否满足学者查询并生成决策依据
PPO：近端策略优化算法，用于Crawler的强化学习训练，包含策略损失和价值损失函数
Crawler Recall：评估指标，表示爬虫成功收集目标论文的比例，用于衡量爬虫性能

📄 打开原文 PDF