arXiv最新AI论文速览速学

🔍

标签: #video generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: Chain of Event-Centric Causal Thought for Physically Plausible Video Generation 03-16

arXiv ID: 2602.14027

arXiv 提交日期: 2026-02-15

video generation model training model evaluation autoregressive diffusion inference-time optimization positional embeddings temporal consistency long video synthesis

短训练，长推理：用于自回归视频生成的无训练时域扩展方法 / Train Short, Inference Long: Training-free Horizon Extension for Autoregressive Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为FLEX的无训练推理框架，通过自适应调整位置编码和优化噪声采样，让原本只能生成短视频的模型无需重新训练，就能直接生成长达数分钟且质量稳定的长视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10675

arXiv 提交日期: 2026-02-11

multi-modal model evaluation benchmark visual chain-of-thought dynamic reasoning video question answering dataset video generation

TwiFF（与未来帧共思）：用于动态视觉推理的大规模数据集 / TwiFF (Think With Future Frames): A Large-Scale Dataset for Dynamic Visual Reasoning

1️⃣ 一句话总结

这篇论文提出了首个用于动态视觉问答的大规模数据集TwiFF-2.7M和评估基准TwiFF-Bench，并开发了一个能通过生成未来视频帧来辅助推理的模型，显著提升了AI在理解动态视频内容并进行复杂推理方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10104

arXiv 提交日期: 2026-02-10

video generation model training agents world models latent actions video pretraining action transfer self-supervised learning

Olaf-World：面向视频世界建模的潜在动作定向 / Olaf-World: Orienting Latent Actions for Video World Modeling

1️⃣ 一句话总结

这篇论文提出了一种名为Olaf-World的新方法，通过一种创新的序列级对齐目标，从海量无标签视频中学习出具有通用语义、能跨场景迁移的潜在动作表示，从而显著提升了视频世界模型的动作控制能力和数据利用效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10095

arXiv 提交日期: 2026-02-10

video generation model training theory causal reasoning video diffusion architecture design computational efficiency temporal modeling

视频扩散模型中的因果性与去噪过程是可分离的 / Causality in Video Diffusers is Separable from Denoising

1️⃣ 一句话总结

这篇论文发现，在生成视频的扩散模型中，负责理解时间先后顺序的因果推理部分，可以和负责逐帧绘制细节的多步去噪过程分离开来，并据此提出了一种新的高效架构，在保证生成质量的同时大幅提升了处理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08794

arXiv 提交日期: 2026-02-09

video generation multi-modal aigc audio-visual generation mixture-of-experts open-source lip sync multimodal modeling

MOVA：迈向可扩展且同步的视频-音频生成 / MOVA: Towards Scalable and Synchronized Video-Audio Generation

1️⃣ 一句话总结

这篇论文介绍了一个名为MOVA的开源模型，它能够一次性生成高质量且口型、音效、音乐都与画面内容同步的视听内容，旨在解决现有生成模型常忽略音频或依赖低效级联流程的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08682

arXiv 提交日期: 2026-02-09

video generation aigc multi-modal audio-video generation text-to-video&audio animation mmdit architecture benchmark

ALIVE：用逼真的音视频生成技术为你的世界注入活力 / ALIVE: Animate Your World with Lifelike Audio-Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为ALIVE的生成模型，它通过改进现有视频生成模型，使其能根据文本或参考视频同步生成高质量且音画同步的视频和音频，性能媲美顶尖商业方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08753

arXiv 提交日期: 2026-02-09

computer vision video generation aigc character animation multi-view optimization 3d human pose video synthesis temporal consistency

MVAnimate：利用多视角优化增强角色动画 / MVAnimate: Enhancing Character Animation with Multi-View Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为MVAnimate的新框架，它通过整合2D和3D的多视角先验信息，有效提升了角色动画视频的生成质量，解决了现有方法输出质量低和训练数据不足的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09022

arXiv 提交日期: 2026-02-09

reinforcement learning video generation model training world models post-training autoregressive video generation reward shaping interactive agents

WorldCompass：面向长视野世界模型的强化学习框架 / WorldCompass: Reinforcement Learning for Long-Horizon World Models

1️⃣ 一句话总结

这篇论文提出了一个名为WorldCompass的强化学习框架，它通过创新的采样策略、奖励函数和优化算法，显著提升了视频生成类世界模型在长序列任务中遵循指令的准确性和生成画面的质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08025

arXiv 提交日期: 2026-02-08

benchmark computer vision agents world models memory consistency action control video generation evaluation framework

MIND：世界模型中记忆一致性与行动控制的基准测试 / MIND: Benchmarking Memory Consistency and Action Control in World Models

1️⃣ 一句话总结

这篇论文提出了一个名为MIND的新基准测试，专门用于评估世界模型在理解和预测动态视觉环境时，能否保持长期记忆的一致性以及能否在不同行动指令下进行有效控制，从而揭示了当前模型的不足并推动了该领域的发展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05827

arXiv 提交日期: 2026-02-05

agents multi-modal computer vision vision-language navigation video generation long-horizon planning sparse prediction zero-shot evaluation

稀疏视频生成推动现实世界超视距视觉语言导航 / Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation

1️⃣ 一句话总结

这篇论文提出了一种名为SparseVideoNav的新方法，它首次将视频生成模型引入超视距导航任务，通过生成稀疏的未来视频帧来指导机器人快速规划长距离路径，从而在现实复杂场景（包括夜间）中，以远超现有技术的成功率实现了仅凭简单高层指令的自主导航。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.14027

1️⃣ 一句话总结

arXiv ID: 2602.10675

1️⃣ 一句话总结

arXiv ID: 2602.10104

1️⃣ 一句话总结

arXiv ID: 2602.10095

1️⃣ 一句话总结

arXiv ID: 2602.08794

1️⃣ 一句话总结

arXiv ID: 2602.08682

1️⃣ 一句话总结

arXiv ID: 2602.08753

1️⃣ 一句话总结

arXiv ID: 2602.09022

1️⃣ 一句话总结

arXiv ID: 2602.08025

1️⃣ 一句话总结

arXiv ID: 2602.05827

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.14027 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10675 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10104 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10095 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08794 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08682 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08753 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09022 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08025 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05827 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.14027

arXiv ID: 2602.10675

arXiv ID: 2602.10104

arXiv ID: 2602.10095

arXiv ID: 2602.08794

arXiv ID: 2602.08682

arXiv ID: 2602.08753

arXiv ID: 2602.09022

arXiv ID: 2602.08025

arXiv ID: 2602.05827