arXiv ID:
2603.15558
全景可供性预测 / Panoramic Affordance Prediction
1️⃣ 一句话总结
这篇论文首次提出并解决了全景图像中的可供性预测问题,通过构建一个大规模数据集并设计一种无需训练、由粗到细的仿生视觉处理流程,显著提升了AI智能体对360度全景环境的整体感知与交互能力。
全景可供性预测 / Panoramic Affordance Prediction
这篇论文首次提出并解决了全景图像中的可供性预测问题,通过构建一个大规模数据集并设计一种无需训练、由粗到细的仿生视觉处理流程,显著提升了AI智能体对360度全景环境的整体感知与交互能力。
看见与记忆:一种用于网页遍历的多模态智能体 / See and Remember: A Multimodal Agent for Web Traversal
这篇论文提出了一种名为V-GEMS的新型多模态智能体,它通过结合视觉定位和显式记忆系统,让AI在浏览网页时能更好地理解界面元素并记住走过的路径,从而有效避免迷路和重复打转,显著提升了网页导航的准确性和效率。
超越静态裁剪:面向复杂推理任务的层自适应视觉定位与解码增强 / Beyond Static Cropping: Layer-Adaptive Visual Localization and Decoding Enhancement
这篇论文发现,大视觉语言模型在不同任务中依赖不同网络层进行视觉定位,并据此提出了一种无需训练、能自适应选择关键视觉信息层以提升复杂视觉问答准确性的新方法。
MMFormalizer:面向真实世界的多模态自动形式化方法 / MMFormalizer: Multimodal Autoformalization in the Wild
这篇论文提出了一个名为MMFormalizer的新框架,它首次将自动形式化(即把自然语言描述的数学物理问题转化为机器可推理的严格公式)从纯文本扩展到包含视觉信息的真实世界,通过递归构建和自适应终止,让机器能根据图像和文字共同推断出隐藏的物理约束并完成形式化,并在涵盖经典力学、相对论等多个领域的基准测试中验证了其有效性。
Video-BrowseComp:在开放网络上对智能体视频研究进行基准测试 / Video-BrowseComp: Benchmarking Agentic Video Research on Open Web
这篇论文提出了首个名为Video-BrowseComp的基准测试,专门用于评估AI智能体在开放网络上主动搜索、观看并分析视频内容以回答复杂问题的能力,揭示了当前先进模型在此类需要视觉时序推理的任务上表现仍然很差。
GroundingME:通过多维评估揭示多模态大语言模型中的视觉指代差距 / GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation
这篇论文提出了一个名为GroundingME的新基准测试,通过四个关键维度系统性地评估多模态大语言模型,发现它们在复杂的真实世界视觉指代任务上存在巨大能力差距,并提出了两种改进策略。
借助视觉专家进行草拟与精修 / Draft and Refine with Visual Experts
这项研究提出了一种新方法,通过量化模型对图像信息的依赖程度并引入视觉专家反馈,有效减少了大型视觉语言模型在回答时凭空捏造内容的问题,从而提高了答案的准确性和可靠性。
MARS2 2025多模态推理挑战赛:数据集、方法、结果、讨论与展望 / MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook
这篇论文介绍了MARS2 2025多模态推理挑战赛,通过发布两个新数据集和三个竞赛赛道,评估了40多个模型,旨在推动多模态大语言模型在真实世界和专业化场景中的应用发展。
请先 登录 后再提交论文