📄 论文总结
GeoVista:用于地理定位的增强网络代理视觉推理 / GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization
1️⃣ 一句话总结
这篇论文提出了GeoVista模型和GeoBench基准,通过结合图像放大和网络搜索工具,训练智能代理更准确地根据图片推断地理位置,性能接近顶尖闭源模型。
请先 登录 后再提交论文
GeoVista:用于地理定位的增强网络代理视觉推理 / GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization
这篇论文提出了GeoVista模型和GeoBench基准,通过结合图像放大和网络搜索工具,训练智能代理更准确地根据图片推断地理位置,性能接近顶尖闭源模型。
VisPlay:从图像中自我演化的视觉语言模型 / VisPlay: Self-Evolving Vision-Language Models from Images
这篇论文提出了一个名为VisPlay的自进化强化学习框架,让视觉语言模型能够利用大量未标注图像数据,通过让模型扮演提问者和回答者两个角色相互训练,自主提升视觉推理能力,并在多个基准测试中显著提高了性能。
VisMem:潜在视觉记忆释放视觉语言模型潜力 / VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models
这篇论文提出了一种名为VisMem的认知对齐框架,通过为视觉语言模型添加短期和长期视觉记忆模块,解决了模型在处理复杂视觉任务时容易丢失细节和语义一致性的问题,从而显著提升了模型性能。
长链基础思维:大规模提炼组合式视觉推理链条 / Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale
这篇论文提出了一个大规模生成高质量视觉推理数据集的新方法,通过两阶段合成框架创造出包含复杂推理链条的百万级问题,实验证明基于该数据训练的模型在多项视觉及跨模态推理任务上超越了现有最优模型。
用视频思考:视频生成作为一种有前景的多模态推理范式 / Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
这篇论文提出了一种名为‘用视频思考’的新方法,利用视频生成模型(如Sora-2)将视觉和文本推理统一起来,克服了传统图像和文本分离的局限性,并在多项任务中展现出强大的理解和生成能力。
MME-CC:一个具有挑战性的认知能力多模态评估基准 / MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity
这篇论文提出了一个名为MME-CC的新基准,专门用于系统评估多模态大模型在视觉相关认知能力(如空间、几何和知识推理)上的表现,发现当前模型在这些方面普遍较弱,并揭示了常见的错误模式,旨在推动未来模型设计的改进。
可视化是推理的第一步:MIRA,一个视觉思维链基准 / When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
这篇论文提出了一个名为MIRA的新基准,用于评估人工智能模型在需要生成中间视觉图像(如草图或结构图)来辅助推理的任务上的表现,实验发现提供视觉线索能显著提升模型性能,强调了视觉想象在复杂推理中的关键作用。
VCode:一种以SVG作为符号视觉表示的多模态编码基准 / VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation
这篇论文提出了一个名为VCode的多模态编码基准,将图像理解任务转化为生成SVG代码的问题,并引入了一个评估方法和智能代理框架来提升模型在视觉符号表示上的准确性和推理能力。
ChartM³:用于图表理解中多维多步视觉推理数据构建的多阶段代码驱动流程 / ChartM$^3$: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension
本研究开发了一个自动化代码驱动流程,用于生成多样化的图表视觉推理数据集,有效提升了小型模型在复杂图表理解和跨领域泛化任务上的性能,使其能够媲美更大规模的模型。
TIR-Bench:面向智能图像推理代理的综合性基准测试 / TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning
这篇论文提出了一个名为TIR-Bench的新基准测试,专门用于评估AI模型在复杂图像处理任务中动态使用工具进行推理的能力,填补了现有测试在衡量高级视觉思维方面的不足。