📄 论文总结
视觉可编程性:图表理解中代码即思维的指南 / Visual Programmability: A Guide for Code-as-Thought in Chart Understanding
1️⃣ 一句话总结
该论文提出了一种自适应视觉语言模型框架,通过强化学习让模型学会动态选择代码推理或直接视觉分析来解决图表理解问题,从而提升推理的准确性和鲁棒性。
请先 登录 后再提交论文
视觉可编程性:图表理解中代码即思维的指南 / Visual Programmability: A Guide for Code-as-Thought in Chart Understanding
该论文提出了一种自适应视觉语言模型框架,通过强化学习让模型学会动态选择代码推理或直接视觉分析来解决图表理解问题,从而提升推理的准确性和鲁棒性。
HuMo:通过协作式多模态条件生成以人为中心的视频 / HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning
这篇论文提出了一个名为HuMo的统一框架,通过构建高质量数据集和创新的训练策略,有效解决了多模态输入下人物视频生成中主体保持和音画同步的协调难题。
D-HUMOR:通过多模态开放式推理理解黑色幽默——一个基准数据集与方法 / D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning -- A Benchmark Dataset and Method
这篇论文提出了一个专门用于识别网络表情包中黑色幽默的数据集和一种多模态推理增强方法,通过让AI模型模拟作者视角生成解释并融合图文信息,显著提升了黑色幽默检测、目标识别和强度预测的准确率。
通过对比注意力聚焦:增强视觉语言模型的视觉推理能力 / Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning
这项研究提出了一种无需额外训练的方法CARVE,通过对比视觉语言模型中通用查询和任务特定查询的注意力差异,有效分离图像中的语义信号和视觉噪声,从而在复杂视觉场景下显著提升模型的推理性能。
UniVerse-1:通过专家模型拼接实现统一音视频生成 / UniVerse-1: Unified Audio-Video Generation via Stitching of Experts
这篇论文提出了一种名为UniVerse-1的统一模型,它通过巧妙拼接已有的视频和音乐生成专家模型,高效地生成了音画同步的视频内容,并引入了新的评估基准来推动该领域发展。
多模态科学推理:ICML 2025 SeePhys挑战赛技术报告与冠军方案 / Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge
这项研究提出了一种结合图像描述辅助的推理方法,有效解决了AI在多模态场景下的理解难题,并在科学推理竞赛中夺冠,同时验证了其在几何问题上的广泛适用性。
LatticeWorld:一个多模态大语言模型赋能的交互式复杂世界生成框架 / LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation
这项研究提出了一个名为LatticeWorld的高效3D世界生成框架,它利用轻量级大语言模型和先进渲染引擎,通过文本和图像指令快速创建具有动态交互、高精度物理模拟和大规模场景的虚拟环境,相比传统手工方法生产效率提升超过90倍。
WildScore:多模态大语言模型在真实场景符号音乐推理的基准测试 / WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning
这篇论文提出了首个针对真实世界符号音乐推理的基准测试WildScore,通过从真实乐谱和用户讨论构建的评估体系,揭示了当前多模态大模型在音乐理解方面的潜力与局限。
从编辑器到密集几何估计器 / From Editor to Dense Geometry Estimator
这篇论文发现图像编辑模型比生成模型更适合用于密集几何估计任务,并提出了一个名为FE2E的新框架,通过改进训练目标和数据格式,无需额外数据就能在深度和法线估计上取得显著性能提升。
基于工具增强的视觉感知强化学习 / Reinforced Visual Perception with Tools
本研究提出一种基于强化学习的视觉工具增强方法,通过训练多模态大模型自主调用四种视觉工具,在多个视觉推理基准测试中显著超越传统监督学习方法,有效提升了模型的视觉感知与推理能力。