arXiv ID:
2601.18157
智能体驱动的超长视频理解 / Agentic Very Long Video Understanding
1️⃣ 一句话总结
这项研究提出了一种名为EGAgent的新框架,它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频,从而在复杂的长时视频理解任务上取得了领先的性能。
智能体驱动的超长视频理解 / Agentic Very Long Video Understanding
这项研究提出了一种名为EGAgent的新框架,它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频,从而在复杂的长时视频理解任务上取得了领先的性能。
HERMES:将KV缓存作为分层内存以实现高效的流式视频理解 / HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding
本文提出了一种名为HERMES的新方法,它巧妙地将模型处理视频时产生的中间数据(KV缓存)组织成分层记忆,从而在无需额外训练的情况下,实现了对连续视频流的实时、准确理解,同时大幅降低了计算和内存开销。
V-DPM:利用动态点图进行4D视频重建 / V-DPM: 4D Video Reconstruction with Dynamic Point Maps
这篇论文提出了一种名为V-DPM的新方法,它通过将静态场景的3D重建技术扩展到视频领域,不仅能从视频中重建出动态场景的3D形状,还能精确追踪场景中每个点的完整3D运动轨迹,实现了更先进的4D(3D+时间)动态场景重建。
VideoAuto-R1:通过“思考一次,回答两次”实现视频自动推理 / VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice
这篇论文提出了一种新的视频理解框架VideoAuto-R1,它通过‘先给出初步答案,再根据必要进行推理’的智能策略,在保持高准确率的同时,大幅提升了处理效率,减少了不必要的复杂推理步骤。
驯服幻觉:通过反事实视频生成提升多模态大语言模型的视频理解能力 / Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation
这篇论文提出了一种名为DualityForge的新方法,通过自动生成违背常识的反事实视频及其问答对来训练多模态大模型,有效减少了模型在视频理解中因过度依赖文本先验而产生的‘幻觉’错误,并在多个测试中显著提升了性能。
NExT-Vid:一种用于联合建模图像和视频的掩码下一帧自回归视觉生成预训练框架 / Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations
本文提出了一种名为NExT-Vid的新型视觉生成预训练框架,它通过上下文隔离的自回归预测器和条件流匹配解码器,将语义表征与目标解码解耦,有效解决了现有自回归预训练方法中语义定位不准、生成质量差的问题,并在多个视频理解基准上取得了领先的性能。
QuantiPhy:评估视觉语言模型物理推理能力的定量基准 / QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models
这篇论文提出了首个名为QuantiPhy的定量基准测试,用于评估视觉语言模型从视频中精确推理物体运动数值(如速度、加速度)的能力,发现当前顶尖模型更依赖预训练知识而非真实视觉输入,其数值准确性远低于表面上的合理性。
长视频全模态推理与工具使用的基准与智能体框架 / A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos
这篇论文提出了一个名为LongShOTBench的诊断性基准测试和一个名为LongShOTAgent的智能体系统,用于全面评估和提升AI模型在理解长视频时整合视觉、语音、音频并进行复杂推理与工具使用的能力,揭示了当前先进模型在此任务上的显著不足。
MMSI-Video-Bench:一个用于视频空间智能的整体性基准测试集 / MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence
这篇论文提出了一个名为MMSI-Video-Bench的全面基准测试集,用于评估多模态大语言模型在理解视频中三维空间信息的能力,测试发现当前最先进的模型与人类水平相比仍有巨大差距。
MoCapAnything:基于单目视频的任意骨骼统一三维动作捕捉 / MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos
这篇论文提出了一个名为MoCapAnything的通用系统,能够仅凭一段普通视频和任意一个三维角色模型,就自动生成驱动该角色运动的动画数据,突破了传统动作捕捉技术对特定生物种类或模板的限制。
请先 登录 后再提交论文