📄 论文总结
当模态冲突时:单模态推理不确定性如何控制多模态大语言模型的偏好动态 / When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs
1️⃣ 一句话总结
这篇论文揭示了多模态大模型在处理视觉和文本信息冲突时,其决策主要受两个因素控制:模型对每种信息可靠性的实时判断差异,以及模型自身对某种信息类型的固有偏好,从而解释了模型在矛盾信息面前如何做出选择。
请先 登录 后再提交论文
当模态冲突时:单模态推理不确定性如何控制多模态大语言模型的偏好动态 / When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs
这篇论文揭示了多模态大模型在处理视觉和文本信息冲突时,其决策主要受两个因素控制:模型对每种信息可靠性的实时判断差异,以及模型自身对某种信息类型的固有偏好,从而解释了模型在矛盾信息面前如何做出选择。
Actial:激活多模态大语言模型的空间推理能力 / Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models
本研究通过构建大规模数据集和两阶段微调方法,有效激活了多模态大语言模型对三维空间关系的理解能力,显著提升了其在跨视角一致性等复杂空间推理任务上的表现。
ARGenSeg:基于自回归图像生成模型的图像分割方法 / ARGenSeg: Image Segmentation with Autoregressive Image Generation Model
这篇论文提出了一种名为ARGenSeg的新方法,通过将图像分割任务融入多模态大语言模型并采用图像生成方式,实现了更精细的像素级分割,同时大幅提升了推理速度。
Conan:像侦探一样在多尺度视觉证据上进行渐进式推理学习 / Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence
这篇论文提出了一个名为Conan的智能视频推理框架,它通过像侦探一样逐步识别关键画面、分析跨帧线索并自主决定何时停止探索,有效解决了现有方法在视频推理中容易产生幻觉或定位不准的问题,并在多个基准测试中取得了领先的准确率。
NaViL:数据约束下重新思考原生多模态大语言模型的扩展特性 / NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints
这项研究提出了一种名为NaViL的原生多模态大模型,通过端到端训练方式探索了视觉编码器与大语言模型之间的正向扩展关系,并在14个基准测试中验证了其高效且具有竞争力的性能。
多模态大语言模型中的自我改进:一项综述 / Self-Improvement in Multimodal Large Language Models: A Survey
这篇论文首次全面综述了多模态大语言模型如何通过数据收集、组织和模型优化等方法实现自我改进,以低成本提升模型能力并拓展其应用前景。
OmniEVA:通过任务自适应三维基础与具身感知推理的通用具身规划器 / OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning
这篇论文提出了一个名为OmniEVA的智能体规划系统,它通过动态选择三维信息融合和结合机器人物理限制进行推理,解决了现有模型在空间适应性和实际可行性方面的不足,从而在各种现实任务中实现了更通用和可靠的决策规划。