arXiv ID:
2512.09616
重新思考视频的思维链推理 / Rethinking Chain-of-Thought Reasoning for Videos
1️⃣ 一句话总结
这篇论文提出,在视频理解任务中,使用简短推理和压缩的视觉信息,而非冗长的思维链,就能达到高效且具有竞争力的效果,从而挑战了传统上认为需要复杂、类人推理过程的观点。
重新思考视频的思维链推理 / Rethinking Chain-of-Thought Reasoning for Videos
这篇论文提出,在视频理解任务中,使用简短推理和压缩的视觉信息,而非冗长的思维链,就能达到高效且具有竞争力的效果,从而挑战了传统上认为需要复杂、类人推理过程的观点。
MoRel:一种基于锚点中继双向混合与分层致密化的长程无闪烁4D运动建模方法 / MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification
这篇论文提出了一种名为MoRel的新方法,它通过创新的锚点中继和双向混合机制,解决了现有技术在处理长时间动态视频时遇到的内存爆炸、画面闪烁和遮挡物变化问题,实现了高质量、高效率且内存可控的4D场景重建。
用于可解释与鲁棒模型训练的混合归因先验 / Hybrid Attribution Priors for Explainable and Robust Model Training
这篇论文提出了一种新的归因先验提取框架(CAP),它能帮助小型语言模型更好地抓住细微的类别差异,并通过结合多种归因先验来提升模型的可解释性和抗干扰能力。
从音频世界模型中学习机器人操作 / Learning Robot Manipulation from Audio World Models
这篇论文提出了一种能预测未来音频的生成模型,帮助机器人通过聆听和理解声音的节奏与物理特性,更好地完成需要听觉判断的复杂操作任务。
KD-OCT:用于临床级视网膜OCT分类的高效知识蒸馏方法 / KD-OCT: Efficient Knowledge Distillation for Clinical-Grade Retinal OCT Classification
这篇论文提出了一种名为KD-OCT的新方法,它通过知识蒸馏技术,将一个大而准的复杂眼科诊断模型压缩成一个小而快的轻量模型,在保持高精度的同时,让模型能部署在临床或边缘设备上,用于实时筛查老年性黄斑变性等眼病。
VLSA:具备即插即用安全约束层的视觉-语言-动作模型 / VLSA: Vision-Language-Action Models with Plug-and-Play Safety Constraint Layer
这篇论文提出了一种名为AEGIS的新型机器人控制架构,它通过一个可即插即用的安全约束层,让现有的视觉语言动作模型在执行复杂任务指令时,能自动且理论可证地避免碰撞,从而在保持任务执行能力的同时大幅提升操作安全性。
自调用思维链:一种用于高效视觉推理的新型代理协调范式 / Thinking with Images via Self-Calling Agent
本文提出了一种名为自调用思维链(sCoT)的新型视觉推理范式,通过将复杂的跨模态推理任务重构为由主代理协调的纯语言原子子任务序列,并利用强化学习进行端到端优化,显著降低了训练成本并提升了模型在高分辨率视觉任务上的推理性能。
万动:基于潜在轨迹引导的运动可控视频生成 / Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance
这篇论文提出了一个名为Wan-Move的新框架,它通过将物体运动的密集轨迹直接映射到视频生成模型的潜在空间,实现了对视频中物体运动的精细、高质量控制,并且无需改变现有模型架构,就能生成长达5秒的流畅可控视频。
模块化神经图像信号处理 / Modular Neural Image Signal Processing
这篇论文提出了一种模块化的神经图像信号处理框架,它不仅能高质量地将原始图像数据转换为最终显示图像,还因其模块化设计而具备出色的可控性、可扩展性和编辑灵活性,并以此为基础构建了一个支持多样编辑操作的用户交互工具。
Visionary:一个基于WebGPU与高斯泼溅技术的世界模型承载平台 / Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform
这篇论文提出了一个名为Visionary的、基于Web浏览器的开放平台,它利用最新的WebGPU技术和标准化接口,让各种动态的3D高斯泼溅模型和生成式AI算法能够直接在网页中高效、便捷地运行和展示,极大地降低了相关技术的使用和部署门槛。
请先 登录 后再提交论文