arXiv ID:
2512.09616
重新思考视频的思维链推理 / Rethinking Chain-of-Thought Reasoning for Videos
1️⃣ 一句话总结
这篇论文提出,在视频理解任务中,使用简短推理和压缩的视觉信息,而非冗长的思维链,就能达到高效且具有竞争力的效果,从而挑战了传统上认为需要复杂、类人推理过程的观点。
重新思考视频的思维链推理 / Rethinking Chain-of-Thought Reasoning for Videos
这篇论文提出,在视频理解任务中,使用简短推理和压缩的视觉信息,而非冗长的思维链,就能达到高效且具有竞争力的效果,从而挑战了传统上认为需要复杂、类人推理过程的观点。
IF-Bench:基于生成式视觉提示的红外图像多模态大语言模型评测与增强 / IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting
这篇论文创建了首个用于评估多模态大模型理解红外图像能力的基准测试IF-Bench,并发现了一种无需额外训练、通过将红外图像转换为语义对齐的RGB图像来显著提升模型性能的通用方法。
从音频世界模型中学习机器人操作 / Learning Robot Manipulation from Audio World Models
这篇论文提出了一种能预测未来音频的生成模型,帮助机器人通过聆听和理解声音的节奏与物理特性,更好地完成需要听觉判断的复杂操作任务。
审美对齐的风险:图像生成与奖励模型如何强化审美偏见与意识形态“审查” / Aesthetic Alignment Risks Assimilation: How Image Generation and Reward Models Reinforce Beauty Bias and Ideological "Censorship"
这篇论文指出,当前流行的AI图像生成模型和其背后的奖励模型过度追求符合大众审美的“漂亮”图像,导致当用户想要生成“反审美”或低质量图像时,AI会无视指令、强行输出“美图”,这实际上形成了一种技术偏见,限制了用户的创作自由和艺术表达的多样性。
VLSA:具备即插即用安全约束层的视觉-语言-动作模型 / VLSA: Vision-Language-Action Models with Plug-and-Play Safety Constraint Layer
这篇论文提出了一种名为AEGIS的新型机器人控制架构,它通过一个可即插即用的安全约束层,让现有的视觉语言动作模型在执行复杂任务指令时,能自动且理论可证地避免碰撞,从而在保持任务执行能力的同时大幅提升操作安全性。
自调用思维链:一种用于高效视觉推理的新型代理协调范式 / Thinking with Images via Self-Calling Agent
本文提出了一种名为自调用思维链(sCoT)的新型视觉推理范式,通过将复杂的跨模态推理任务重构为由主代理协调的纯语言原子子任务序列,并利用强化学习进行端到端优化,显著降低了训练成本并提升了模型在高分辨率视觉任务上的推理性能。
BrainExplore:用于大规模发现和解释人类大脑视觉表征的自动化框架 / BrainExplore: Large-Scale Discovery of Interpretable Visual Representations in the Human Brain
本文提出了一个名为BrainExplore的自动化框架,它通过整合无监督数据驱动分解、预测性fMRI信号增强以及基于视觉语言模型的自动化解释流程,能够大规模、系统性地从全脑fMRI数据中发现数千个可解释的、精细粒度的视觉概念表征模式。
相同内容,不同答案:多模态大语言模型中的跨模态不一致性 / Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs
这篇论文通过创建新的评测基准,揭示了当前多模态大模型在处理图像、文字等不同形式但语义相同的信息时,会给出不一致的答案,并发现这种不一致性与模型内部视觉和文本表征的差异有关。
慢思考,快行动:一种用于泛化视觉语言导航的双系统基础模型 / Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation
这篇论文提出了一个名为DualVLN的双系统模型,它通过一个慢速思考的全局规划器来设定中期目标,再驱动一个快速行动的本地控制器来生成平滑轨迹,从而在复杂动态环境中实现了更鲁棒、更高效的视觉语言导航。
TreeGRPO:用于扩散模型在线强化学习后训练的树形优势GRPO / TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models
这篇论文提出了一种名为TreeGRPO的新型强化学习方法,它通过将扩散模型的去噪过程构建成一棵搜索树,从而大幅提高了模型根据人类偏好进行训练的效率,实现了更快的训练速度和更好的性能。
请先 登录 后再提交论文