arXiv ID:
2602.10210
arXiv 提交日期: 2026-02-10
检索增强模型相比大语言模型增加了多少推理能力?一个面向混合知识多跳推理的基准测试框架 / How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge
1️⃣ 一句话总结
这篇论文提出了一个名为HybridRAG-Bench的基准测试框架,它通过自动生成基于最新科学文献混合知识(文本与知识图谱)的复杂推理问题,来有效评估模型是否真正依赖外部检索与多步推理,而非仅仅调用其内部记忆。