arXiv ID:
2512.09616
重新思考视频的思维链推理 / Rethinking Chain-of-Thought Reasoning for Videos
1️⃣ 一句话总结
这篇论文提出,在视频理解任务中,使用简短推理和压缩的视觉信息,而非冗长的思维链,就能达到高效且具有竞争力的效果,从而挑战了传统上认为需要复杂、类人推理过程的观点。
重新思考视频的思维链推理 / Rethinking Chain-of-Thought Reasoning for Videos
这篇论文提出,在视频理解任务中,使用简短推理和压缩的视觉信息,而非冗长的思维链,就能达到高效且具有竞争力的效果,从而挑战了传统上认为需要复杂、类人推理过程的观点。
START:用于图表理解的空间与文本学习 / START: Spatial and Textual Learning for Chart Understanding
这篇论文提出了一个名为START的新方法,通过同时学习图表的视觉空间布局和底层数据文本信息,显著提升了多模态大语言模型对图表的理解能力,并在新构建的基准测试上取得了领先性能。
EditThinker:为任意图像编辑器解锁迭代推理能力 / EditThinker: Unlocking Iterative Reasoning for Any Image Editor
这篇论文提出了一个名为EditThinker的‘边思考边编辑’框架,通过让AI在编辑图像时像人一样反复审视结果、分析问题并优化指令,从而显著提升了各种现有图像编辑模型对用户指令的理解和执行准确性。
主动视频感知:面向智能体长视频理解的迭代式证据搜寻 / Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding
这篇论文提出了一个名为‘主动视频感知’的新框架,它让AI像侦探一样,在观看长视频时能主动、有选择地寻找与问题相关的关键视觉证据,从而用更少的计算量实现更准确的长视频理解。
COOPER:空间智能中协同感知与推理的统一模型 / COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence
这篇论文提出了一个名为COOPER的统一多模态大语言模型,它通过整合深度和分割信息来增强空间感知能力,并采用自适应交替推理策略,从而显著提升了模型对三维空间关系的理解和推理性能。
OneThinker:面向图像与视频的一体化推理模型 / OneThinker: All-in-one Reasoning Model for Image and Video
这篇论文提出了一个名为OneThinker的统一模型,它能够同时处理图像和视频的多种核心视觉理解任务(如问答、描述、定位和分割),并通过创新的训练方法解决了多任务学习中的奖励不平衡问题,在多个基准测试上表现出色,向通用的多模态推理专家迈进了一步。
REASONEDIT:迈向推理增强的图像编辑模型 / REASONEDIT: Towards Reasoning-Enhanced Image Editing Models
这篇论文提出了一种名为ReasonEdit的新框架,通过解锁大型多模态语言模型的推理能力,让AI在编辑图片时能像人一样先思考指令、再检查结果并自动修正错误,从而显著提升了图像编辑的准确性和效果。
OralGPT-Omni:一个多功能牙科多模态大语言模型 / OralGPT-Omni: A Versatile Dental Multimodal Large Language Model
这篇论文提出了首个专门用于牙科领域的多模态大语言模型OralGPT-Omni,它通过模仿牙医诊断思维的数据集和训练方法,能够准确理解和分析多种牙科影像,并在权威评测中表现优异,推动了牙科人工智能的发展。
CaptionQA:你的图像描述是否和图像本身一样有用? / CaptionQA: Is Your Caption as Useful as the Image Itself?
本文提出了一个名为CaptionQA的新基准,通过量化图像描述(caption)在多大程度上能替代原始图像以支持下游任务(如检索、推荐、具身AI等),来评估描述的质量,揭示了当前最先进模型生成的描述在实用性上与原始图像存在显著差距。
Omni-AVSR:基于大语言模型的统一多模态语音识别 / Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models
这项研究提出了一个名为Omni-AVSR的统一多模态语音识别模型,它能够用一个单一模型同时处理音频、视觉及音视频结合的语音识别任务,在保持高精度的同时大幅降低了训练和部署成本,并具备适应不同效率需求的弹性推理能力。
请先 登录 后再提交论文