arXiv最新AI论文速览速学

🔍

标签: #video generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: PhyCo: Learning Controllable Physical Priors for Generative Motion 05-01

arXiv ID: 2602.19900

arXiv 提交日期: 2026-02-23

computer vision aigc video generation portrait generation diffusion models expression transfer personalized representation video synthesis

ExpPortrait：通过个性化表征生成富有表现力的肖像 / ExpPortrait: Expressive Portrait Generation via Personalized Representation

1️⃣ 一句话总结

这篇论文提出了一种新的高保真个性化头部表征方法，能更好地分离表情和身份信息，并基于此训练了一个扩散模型，从而生成在身份保持、表情准确性和细节丰富度上都更优的富有表现力的肖像视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17270

arXiv 提交日期: 2026-02-19

model training computer vision multi-modal latent representation diffusion models image generation video generation training efficiency

统一潜变量（UL）：如何训练你的潜变量 / Unified Latents (UL): How to train your latents

1️⃣ 一句话总结

这篇论文提出了一个名为‘统一潜变量’的新框架，它通过巧妙结合扩散模型的先验知识和解码器，能够用更少的计算量高效地学习图像和视频数据的压缩表示，并在多个基准测试中取得了领先的重建质量和生成效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15031

arXiv 提交日期: 2026-02-16

video generation model training computer vision video inpainting computational efficiency local-global control generative editing real-time editing

EditCtrl：用于实时生成式视频编辑的解耦局部与全局控制框架 / EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing

1️⃣ 一句话总结

这篇论文提出了一个名为EditCtrl的高效视频编辑框架，它通过将计算资源集中在需要修改的局部区域并辅以轻量级的全局一致性引导，在实现高质量视频编辑效果的同时，将计算效率提升了10倍，并能支持多区域编辑等新功能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14027

arXiv 提交日期: 2026-02-15

video generation model training model evaluation autoregressive diffusion inference-time optimization positional embeddings temporal consistency long video synthesis

短训练，长推理：用于自回归视频生成的无训练时域扩展方法 / Train Short, Inference Long: Training-free Horizon Extension for Autoregressive Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为FLEX的无训练推理框架，通过自适应调整位置编码和优化噪声采样，让原本只能生成短视频的模型无需重新训练，就能直接生成长达数分钟且质量稳定的长视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10675

arXiv 提交日期: 2026-02-11

multi-modal model evaluation benchmark visual chain-of-thought dynamic reasoning video question answering dataset video generation

TwiFF（与未来帧共思）：用于动态视觉推理的大规模数据集 / TwiFF (Think With Future Frames): A Large-Scale Dataset for Dynamic Visual Reasoning

1️⃣ 一句话总结

这篇论文提出了首个用于动态视觉问答的大规模数据集TwiFF-2.7M和评估基准TwiFF-Bench，并开发了一个能通过生成未来视频帧来辅助推理的模型，显著提升了AI在理解动态视频内容并进行复杂推理方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10104

arXiv 提交日期: 2026-02-10

video generation model training agents world models latent actions video pretraining action transfer self-supervised learning

Olaf-World：面向视频世界建模的潜在动作定向 / Olaf-World: Orienting Latent Actions for Video World Modeling

1️⃣ 一句话总结

这篇论文提出了一种名为Olaf-World的新方法，通过一种创新的序列级对齐目标，从海量无标签视频中学习出具有通用语义、能跨场景迁移的潜在动作表示，从而显著提升了视频世界模型的动作控制能力和数据利用效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10095

arXiv 提交日期: 2026-02-10

video generation model training theory causal reasoning video diffusion architecture design computational efficiency temporal modeling

视频扩散模型中的因果性与去噪过程是可分离的 / Causality in Video Diffusers is Separable from Denoising

1️⃣ 一句话总结

这篇论文发现，在生成视频的扩散模型中，负责理解时间先后顺序的因果推理部分，可以和负责逐帧绘制细节的多步去噪过程分离开来，并据此提出了一种新的高效架构，在保证生成质量的同时大幅提升了处理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08794

arXiv 提交日期: 2026-02-09

video generation multi-modal aigc audio-visual generation mixture-of-experts open-source lip sync multimodal modeling

MOVA：迈向可扩展且同步的视频-音频生成 / MOVA: Towards Scalable and Synchronized Video-Audio Generation

1️⃣ 一句话总结

这篇论文介绍了一个名为MOVA的开源模型，它能够一次性生成高质量且口型、音效、音乐都与画面内容同步的视听内容，旨在解决现有生成模型常忽略音频或依赖低效级联流程的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08682

arXiv 提交日期: 2026-02-09

video generation aigc multi-modal audio-video generation text-to-video&audio animation mmdit architecture benchmark

ALIVE：用逼真的音视频生成技术为你的世界注入活力 / ALIVE: Animate Your World with Lifelike Audio-Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为ALIVE的生成模型，它通过改进现有视频生成模型，使其能根据文本或参考视频同步生成高质量且音画同步的视频和音频，性能媲美顶尖商业方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08753

arXiv 提交日期: 2026-02-09

computer vision video generation aigc character animation multi-view optimization 3d human pose video synthesis temporal consistency

MVAnimate：利用多视角优化增强角色动画 / MVAnimate: Enhancing Character Animation with Multi-View Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为MVAnimate的新框架，它通过整合2D和3D的多视角先验信息，有效提升了角色动画视频的生成质量，解决了现有方法输出质量低和训练数据不足的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.19900

1️⃣ 一句话总结

arXiv ID: 2602.17270

1️⃣ 一句话总结

arXiv ID: 2602.15031

1️⃣ 一句话总结

arXiv ID: 2602.14027

1️⃣ 一句话总结

arXiv ID: 2602.10675

1️⃣ 一句话总结

arXiv ID: 2602.10104

1️⃣ 一句话总结

arXiv ID: 2602.10095

1️⃣ 一句话总结

arXiv ID: 2602.08794

1️⃣ 一句话总结

arXiv ID: 2602.08682

1️⃣ 一句话总结

arXiv ID: 2602.08753

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.19900 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17270 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15031 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14027 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10675 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10104 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10095 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08794 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08682 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08753 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.19900

arXiv ID: 2602.17270

arXiv ID: 2602.15031

arXiv ID: 2602.14027

arXiv ID: 2602.10675

arXiv ID: 2602.10104

arXiv ID: 2602.10095

arXiv ID: 2602.08794

arXiv ID: 2602.08682

arXiv ID: 2602.08753