arXiv ID:
2512.09616
重新思考视频的思维链推理 / Rethinking Chain-of-Thought Reasoning for Videos
1️⃣ 一句话总结
这篇论文提出,在视频理解任务中,使用简短推理和压缩的视觉信息,而非冗长的思维链,就能达到高效且具有竞争力的效果,从而挑战了传统上认为需要复杂、类人推理过程的观点。
重新思考视频的思维链推理 / Rethinking Chain-of-Thought Reasoning for Videos
这篇论文提出,在视频理解任务中,使用简短推理和压缩的视觉信息,而非冗长的思维链,就能达到高效且具有竞争力的效果,从而挑战了传统上认为需要复杂、类人推理过程的观点。
IF-Bench:基于生成式视觉提示的红外图像多模态大语言模型评测与增强 / IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting
这篇论文创建了首个用于评估多模态大模型理解红外图像能力的基准测试IF-Bench,并发现了一种无需额外训练、通过将红外图像转换为语义对齐的RGB图像来显著提升模型性能的通用方法。
用于可解释与鲁棒模型训练的混合归因先验 / Hybrid Attribution Priors for Explainable and Robust Model Training
这篇论文提出了一种新的归因先验提取框架(CAP),它能帮助小型语言模型更好地抓住细微的类别差异,并通过结合多种归因先验来提升模型的可解释性和抗干扰能力。
审美对齐的风险:图像生成与奖励模型如何强化审美偏见与意识形态“审查” / Aesthetic Alignment Risks Assimilation: How Image Generation and Reward Models Reinforce Beauty Bias and Ideological "Censorship"
这篇论文指出,当前流行的AI图像生成模型和其背后的奖励模型过度追求符合大众审美的“漂亮”图像,导致当用户想要生成“反审美”或低质量图像时,AI会无视指令、强行输出“美图”,这实际上形成了一种技术偏见,限制了用户的创作自由和艺术表达的多样性。
智能体系统的定量扩展原理 / Towards a Science of Scaling Agent Systems
本文提出了一个量化框架,揭示了智能体系统性能并非简单地随智能体数量增加而提升,而是由任务特性、协调机制与模型能力之间的复杂权衡所主导,并建立了基于任务可测量属性的架构选择预测模型。
BrainExplore:用于大规模发现和解释人类大脑视觉表征的自动化框架 / BrainExplore: Large-Scale Discovery of Interpretable Visual Representations in the Human Brain
本文提出了一个名为BrainExplore的自动化框架,它通过整合无监督数据驱动分解、预测性fMRI信号增强以及基于视觉语言模型的自动化解释流程,能够大规模、系统性地从全脑fMRI数据中发现数千个可解释的、精细粒度的视觉概念表征模式。
相同内容,不同答案:多模态大语言模型中的跨模态不一致性 / Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs
这篇论文通过创建新的评测基准,揭示了当前多模态大模型在处理图像、文字等不同形式但语义相同的信息时,会给出不一致的答案,并发现这种不一致性与模型内部视觉和文本表征的差异有关。
追踪世界:在世界坐标系下对几乎所有像素进行单目三维追踪 / TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels
这篇论文提出了一个名为TrackingWorld的新系统,它能够从单个普通摄像头的视频中,将画面里几乎所有移动像素(包括新出现的物体)的轨迹,都精确地重建并追踪在一个统一、稳定的三维世界坐标系里,从而清晰地区分摄像机自身的运动和场景中物体的真实运动。
SAM-Body4D:无需训练即可从视频中恢复4D人体网格 / SAM-Body4D: Training-Free 4D Human Body Mesh Recovery from Videos
这篇论文提出了一种无需额外训练的新方法,通过利用视频中人体运动的连续性,解决了现有技术从视频中重建3D人体姿态和形状时存在的时间不一致和遮挡问题,从而实现了更稳定和鲁棒的4D人体网格恢复。
SegEarth-OV3:探索SAM 3在遥感图像开放词汇语义分割中的应用 / SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images
这篇论文提出了一种无需训练的方法,通过巧妙结合SAM 3模型的不同输出头并过滤不存在的类别,有效提升了遥感图像中密集小目标的开放词汇语义分割精度。
请先 登录 后再提交论文