深度研究:一项系统性综述 / Deep Research: A Systematic Survey
1️⃣ 一句话总结
这篇论文系统性地综述了如何将大语言模型与外部工具(如搜索引擎)结合,使其成为能完成复杂、开放式任务的‘研究智能体’,并梳理了其技术路线、核心组件、优化方法以及面临的挑战。
请先 登录 后再提交论文
深度研究:一项系统性综述 / Deep Research: A Systematic Survey
这篇论文系统性地综述了如何将大语言模型与外部工具(如搜索引擎)结合,使其成为能完成复杂、开放式任务的‘研究智能体’,并梳理了其技术路线、核心组件、优化方法以及面临的挑战。
我们距离真正有用的深度研究智能体还有多远? / How Far Are We from Genuinely Useful Deep Research Agents?
这篇论文通过建立一个包含结构化检查项的新评估标准和对主流研究智能体生成报告的失败模式分析,发现当前自动研究智能体的主要瓶颈不在于理解任务,而在于整合证据、验证事实和制定稳健的推理计划。
CLaRa:通过连续潜在推理桥接检索与生成 / CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning
这篇论文提出了一个名为CLaRa的统一框架,通过将检索和生成过程整合到同一个连续空间中进行联合优化,有效解决了传统检索增强生成方法中上下文过长和模块脱节的问题,并在多个问答基准测试中取得了领先性能。
超越事实检索:基于生成式语义工作区的RAG情景记忆 / Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces
这项研究提出了一种名为‘生成式语义工作区’的新型记忆框架,通过模拟人类情景记忆来帮助大型语言模型理解和推理长文本中随时间、空间演变的事件关系,相比现有技术显著提升了长文本处理性能并降低了计算成本。
BRAINS:用于阿尔茨海默病检测与监测的检索增强系统 / BRAINS: A Retrieval-Augmented System for Alzheimer's Detection and Monitoring
这篇论文提出了一种名为BRAINS的智能系统,它结合了大型语言模型的推理能力和病例检索技术,能够有效辅助医生进行阿尔茨海默病的早期检测和病情监测,特别适合医疗资源有限的地区使用。
MisSynth:利用合成数据改进MISSCI逻辑谬误分类 / MisSynth: Improving MISSCI Logical Fallacies Classification with Synthetic Data
这篇论文提出了一种名为MisSynth的方法,通过生成合成逻辑谬误数据来增强大型语言模型识别健康领域错误信息的能力,实验表明该方法能显著提升模型分类准确率且计算成本较低。
搜索自我博弈:无监督推动智能体能力前沿 / Search Self-play: Pushing the Frontier of Agent Capability without Supervision
这篇论文提出了一种名为‘搜索自我博弈’的无监督训练方法,让大型语言模型同时扮演任务提出者和问题解决者两个角色,通过相互竞争与合作来共同提升搜索能力,无需人工标注即可显著提高智能体在各种任务上的表现。
MoM:面向检索增强生成系统的场景感知文档记忆混合框架 / MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems
本文提出了一种名为MoM的创新框架,通过模拟人类主动阅读和认知过程,将传统检索增强生成系统的被动文本分块转变为主动构建场景感知的文档记忆,从而提升小语言模型在多领域文档处理中的语义理解和推理能力。
RAGCap-Bench:评估大语言模型在代理式检索增强生成系统中的能力基准 / RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems
这篇论文提出了一个名为RAGCap-Bench的评估基准,专门用于测试大语言模型在复杂检索增强生成系统中执行中间任务的能力,发现具备更强中间推理能力的模型能取得更好的整体表现。
M3Retrieve:医学多模态检索基准测试 / M3Retrieve: Benchmarking Multimodal Retrieval for Medicine
这篇论文提出了一个名为M3Retrieve的医学多模态检索基准,旨在填补医疗领域缺乏标准评估工具的空白,通过包含超过120万份文本和16.4万条多模态查询的数据集,系统评估现有模型在不同医学专科和任务中的表现,以推动更可靠医疗检索系统的发展。