arXiv ID:
2603.16179
arXiv 提交日期: 2026-03-17
多模态大语言模型对360°图像的感知:一个综合性基准与一种免训练方法 / 360° Image Perception with MLLMs: A Comprehensive Benchmark and a Training-Free Method
1️⃣ 一句话总结
这篇论文提出了首个用于评估多模态大模型理解360°全景图像能力的基准测试,并设计了一种无需额外训练、基于场景图分解推理的框架,显著提升了模型在全景视觉问答任务上的表现。