arXiv ID:
2604.12890
arXiv 提交日期: 2026-04-14
迈向长视野的自主多模态搜索 / Towards Long-horizon Agentic Multimodal Search
1️⃣ 一句话总结
这篇论文提出了一种名为LMM-Searcher的新框架,通过将视觉信息存储在外部文件并用轻量级文本标识符来管理,解决了多模态智能体在长时间、多步骤搜索任务中信息混杂和计算成本高的问题,从而实现了更高效、更准确的长序列多模态搜索。