📄 论文总结
TiViBench:视频生成模型中的视频内推理能力基准测试 / TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models
1️⃣ 一句话总结
这篇论文提出了一个名为TiViBench的基准测试,专门用于评估视频生成模型在视频中进行复杂推理的能力,并介绍了一种无需额外训练即可提升模型推理性能的优化方法VideoTPO。
请先 登录 后再提交论文
TiViBench:视频生成模型中的视频内推理能力基准测试 / TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models
这篇论文提出了一个名为TiViBench的基准测试,专门用于评估视频生成模型在视频中进行复杂推理的能力,并介绍了一种无需额外训练即可提升模型推理性能的优化方法VideoTPO。
LiteAttention:一种用于扩散变换器的时间稀疏注意力机制 / LiteAttention: A Temporal Sparse Attention for Diffusion Transformers
本文提出了一种名为LiteAttention的高效注意力机制,通过利用扩散过程中注意力模式的时序连贯性来跳过冗余计算,在保持视频生成质量的同时显著降低了计算延迟。
利用人工智能模拟视觉世界:发展路线图 / Simulating the Visual World with Artificial Intelligence: A Roadmap
这篇论文提出视频生成技术正从单纯制作美观视频发展为构建能交互、符合物理规律的虚拟环境,并将现代视频基础模型视为由模拟世界内部规律的‘隐式世界模型’和生成逼真视频的‘渲染器’两部分组成,最终目标是实现具备物理合理性、实时多模态交互和多尺度规划能力的智能系统。
即刻移动:通过双时钟去噪实现无需训练的运动控制视频生成 / Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising
这篇论文提出了一种无需额外训练、即插即用的视频生成框架,通过用户简单的动画草图和双时钟去噪技术,实现了对视频中物体运动和外观的精确控制,同时保持自然动态效果。
用视频思考:视频生成作为一种有前景的多模态推理范式 / Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
这篇论文提出了一种名为‘用视频思考’的新方法,利用视频生成模型(如Sora-2)将视觉和文本推理统一起来,克服了传统图像和文本分离的局限性,并在多项任务中展现出强大的理解和生成能力。
UniAVGen:基于非对称跨模态交互的统一音视频生成框架 / UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions
这篇论文提出了一个名为UniAVGen的统一音视频生成框架,通过创新的跨模态交互机制有效解决了现有方法在口型同步和语义一致性上的不足,并能在单一模型中实现多种音视频生成任务,同时大幅减少了训练数据需求。
外科医生离手术世界模型还有多远?关于零样本手术视频生成与专家评估的初步研究 / How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment
这项研究通过专家评估发现,先进的视频生成模型虽然能生成视觉上逼真的手术视频,但在理解手术器械操作、环境反馈和手术意图等深层因果逻辑方面存在显著不足,揭示了AI在专业医疗领域模拟真实世界能力的局限性。
Reg-DPO:利用GT-Pair和SFT正则化直接偏好优化以提升视频生成质量 / Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation
本文提出了一种无需人工标注、能自动构建高质量训练数据并提升训练稳定性的视频生成优化方法,通过结合真实视频与生成视频构建对比样本并引入正则化技术,显著提高了视频生成的质量和效率。
MotionStream:基于交互式运动控制的实时视频生成 / MotionStream: Real-Time Video Generation with Interactive Motion Controls
这篇论文提出了一个名为MotionStream的实时视频生成系统,它通过将预训练模型转化为实时推理架构,解决了现有方法延迟高、无法交互的问题,能够在单个GPU上以最高29帧每秒的速度生成无限长的视频,让用户能够通过绘制轨迹或控制摄像机等方式实时看到视频生成效果。
基于视频基础模型的物理人工智能世界仿真 / World Simulation with Video Foundation Models for Physical AI
这篇论文提出了新一代世界仿真模型Cosmos-Predict2.5,它通过统一文本、图像和视频生成能力,结合强化学习训练,显著提升了视频质量和指令对齐,为机器人和自主系统提供了更可靠的仿真工具。