arXiv最新AI论文速览速学

🔍

video generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model 03-17

arXiv ID: 2601.21716

arXiv 提交日期: 2026-01-29

computer vision video generation model training character animation in-context learning motion transfer video synthesis benchmark

DreamActor-M2：通过时空上下文学习的通用角色图像动画 / DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

1️⃣ 一句话总结

这篇论文提出了一个名为DreamActor-M2的通用角色动画框架，它通过将运动控制重新定义为上下文学习问题，并利用自引导数据合成，成功解决了现有方法在保持角色身份与运动一致性之间的权衡难题，无需依赖骨骼等先验信息，就能为各种角色生成高质量动画视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20540

arXiv 提交日期: 2026-01-28

video generation aigc systems world model video simulation open-source real-time generation long-term memory

推进开源世界模型 / Advancing Open-source World Models

1️⃣ 一句话总结

这篇论文介绍了一个名为LingBot-World的高性能开源世界模拟器，它能够基于视频生成技术，在多种风格环境中实现高保真、长时记忆和实时交互的动态模拟，旨在通过开源推动其在内容创作、游戏和机器人学习等领域的应用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18577

arXiv 提交日期: 2026-01-26

video generation model training aigc self-refinement video sampling denoising autoencoder uncertainty-aware physics realism

自我优化视频采样 / Self-Refining Video Sampling

1️⃣ 一句话总结

这篇论文提出了一种让现有视频生成模型在推理时进行自我迭代优化的方法，无需额外训练或外部验证器，就能显著提升生成视频中复杂物理运动的真实感和连贯性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17737

arXiv 提交日期: 2026-01-25

video generation agents natural language processing dialogue-to-video agentic framework cinematic script generation long-horizon coherence multimodal benchmark

剧本即一切：一种用于长时域对话到电影视频生成的智能体框架 / The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation

1️⃣ 一句话总结

这篇论文提出了一个由智能体驱动的端到端框架，能够将粗略的对话自动转化为精细的电影剧本，并以此指导视频生成模型，从而生成情节连贯的长篇叙事视频，解决了现有模型难以从高级概念（如对话）生成连贯长视频的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17323

arXiv 提交日期: 2026-01-24

video generation multi-modal model training diffusion transformers in-context learning talking avatar video-to-video image-to-video

SkyReels-V3 技术报告 / SkyReels-V3 Technique Report

1️⃣ 一句话总结

这篇论文介绍了SkyReels-V3视频生成模型，它在一个统一的架构内实现了三种核心功能：根据参考图片生成连贯视频、无缝延长现有视频以及根据音频生成口型同步的虚拟人像视频，其综合性能接近顶尖的闭源系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.16515

arXiv 提交日期: 2026-01-23

model training video generation aigc sparse attention video diffusion linear attention efficient tuning computational efficiency

SALAD：通过高效的线性注意力微调实现视频扩散Transformer的高稀疏性注意力 / SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

1️⃣ 一句话总结

这篇论文提出了一种名为SALAD的新方法，通过在视频生成模型中巧妙地结合稀疏注意力和一个轻量级的线性注意力分支，并用一个智能门控机制来动态平衡两者，从而在几乎不损失生成质量的前提下，大幅提升了模型的计算效率，实现了90%的注意力稀疏度和1.72倍的推理加速，而且所需的训练数据和计算量非常少。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17067

arXiv 提交日期: 2026-01-22

video generation world models model evaluation state construction dynamics modeling functional benchmarks latent compression causal reasoning

作为世界模型的视频生成：一种关于状态与动态的机制性视角 / A Mechanistic View on Video Generation as World Models: State and Dynamics

1️⃣ 一句话总结

这篇论文提出了一种新的分类框架，将视频生成模型视为潜在的世界模型，并主张通过关注模型如何构建内部“状态”以及如何模拟动态变化来提升其物理连贯性和因果推理能力，从而推动该领域从生成逼真视频迈向构建通用的世界模拟器。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.16296

arXiv 提交日期: 2026-01-22

video generation model training multi-modal video-to-video diffusion iterative editing cross-consistency memory-augmented generation token compression

Memory-V2V：为视频到视频扩散模型增加记忆模块 / Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

1️⃣ 一句话总结

这篇论文提出了一个名为Memory-V2V的新框架，它通过给现有的视频编辑AI模型增加一个‘记忆库’，让用户在多次、反复编辑同一个视频时，能自动参考之前的编辑结果，从而保持视频整体风格和内容的一致性，同时还提高了处理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.16163

arXiv 提交日期: 2026-01-22

robotics model training video generation visuomotor control latent diffusion policy learning robot planning video model fine-tuning

Cosmos策略：通过微调视频模型实现视觉运动控制与规划 / Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

1️⃣ 一句话总结

这篇论文提出了一种名为Cosmos Policy的简单方法，它通过直接在目标平台的机器人演示数据上对预训练的大型视频模型进行一次微调，无需修改模型结构，就能将其转变为一个能直接生成机器人动作、预测未来状态并进行规划的高性能机器人策略，在多项仿真和真实世界任务中取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.15282

arXiv 提交日期: 2026-01-21

video generation robotics benchmark embodied ai dataset evaluation metrics physical realism synthetic data

为具身世界重新思考视频生成模型 / Rethinking Video Generation Model for the Embodied World

1️⃣ 一句话总结

这篇论文通过创建一个名为RBench的标准化机器人视频生成评测基准和一个包含400万标注视频片段的大型开源数据集RoVid-X，旨在解决现有模型难以生成物理真实机器人行为的问题，为具身人工智能的发展提供了评估和训练的基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.21716

1️⃣ 一句话总结

arXiv ID: 2601.20540

1️⃣ 一句话总结

arXiv ID: 2601.18577

1️⃣ 一句话总结

arXiv ID: 2601.17737

1️⃣ 一句话总结

arXiv ID: 2601.17323

1️⃣ 一句话总结

arXiv ID: 2601.16515

1️⃣ 一句话总结

arXiv ID: 2601.17067

1️⃣ 一句话总结

arXiv ID: 2601.16296

1️⃣ 一句话总结

arXiv ID: 2601.16163

1️⃣ 一句话总结

arXiv ID: 2601.15282

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.21716 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20540 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18577 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17737 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17323 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.16515 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17067 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.16296 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.16163 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.15282 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.21716

arXiv ID: 2601.20540

arXiv ID: 2601.18577

arXiv ID: 2601.17737

arXiv ID: 2601.17323

arXiv ID: 2601.16515

arXiv ID: 2601.17067

arXiv ID: 2601.16296

arXiv ID: 2601.16163

arXiv ID: 2601.15282