arXiv ID:
2603.02888
arXiv 提交日期: 2026-03-03
LLandMark:一个用于地标感知多模态交互式视频检索的多智能体框架 / LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval
1️⃣ 一句话总结
这篇论文提出了一个名为LLandMark的多智能体框架,它通过让多个专门智能体协作处理地标信息、理解多模态查询,从而更智能、更准确地从大规模视频库中检索出符合复杂、包含文化或空间地标描述的越南场景视频。