arXiv最新AI论文速览速学

🔍

video generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 365 最新: Steering Video Diffusion Transformers with Massive Activations 03-19

arXiv ID: 2602.21188

arXiv 提交日期: 2026-02-24

computer vision video generation aigc human video generation diffusion models 3d pose control multi-view consistency image-to-video

基于单张图像、三维姿态与视角控制的人类视频生成 / Human Video Generation from a Single Image with 3D Pose and View Control

1️⃣ 一句话总结

这篇论文提出了一种名为HVG的新方法，它能够仅凭一张人物照片，通过控制三维姿态和观看角度，自动生成高质量、多视角、动作连贯流畅的人物视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20354

arXiv 提交日期: 2026-02-23

video generation model evaluation computer vision video realism 3d semantics autoencoder temporal consistency physical plausibility

3DSPA：一种用于评估视频真实性的3D语义点自动编码器 / 3DSPA: A 3D Semantic Point Autoencoder for Evaluating Video Realism

1️⃣ 一句话总结

这篇论文提出了一个名为3DSPA的自动化框架，它通过结合三维运动轨迹和场景语义来评估AI生成视频的真实性，无需参考视频，能有效检测违反物理规律的画面，并且其评估结果与人类判断高度一致。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19900

arXiv 提交日期: 2026-02-23

computer vision aigc video generation portrait generation diffusion models expression transfer personalized representation video synthesis

ExpPortrait：通过个性化表征生成富有表现力的肖像 / ExpPortrait: Expressive Portrait Generation via Personalized Representation

1️⃣ 一句话总结

这篇论文提出了一种新的高保真个性化头部表征方法，能更好地分离表情和身份信息，并基于此训练了一个扩散模型，从而生成在身份保持、表情准确性和细节丰富度上都更优的富有表现力的肖像视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15031

arXiv 提交日期: 2026-02-16

video generation model training computer vision video inpainting computational efficiency local-global control generative editing real-time editing

EditCtrl：用于实时生成式视频编辑的解耦局部与全局控制框架 / EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing

1️⃣ 一句话总结

这篇论文提出了一个名为EditCtrl的高效视频编辑框架，它通过将计算资源集中在需要修改的局部区域并辅以轻量级的全局一致性引导，在实现高质量视频编辑效果的同时，将计算效率提升了10倍，并能支持多区域编辑等新功能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14027

arXiv 提交日期: 2026-02-15

video generation model training model evaluation autoregressive diffusion inference-time optimization positional embeddings temporal consistency long video synthesis

短训练，长推理：用于自回归视频生成的无训练时域扩展方法 / Train Short, Inference Long: Training-free Horizon Extension for Autoregressive Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为FLEX的无训练推理框架，通过自适应调整位置编码和优化噪声采样，让原本只能生成短视频的模型无需重新训练，就能直接生成长达数分钟且质量稳定的长视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10104

arXiv 提交日期: 2026-02-10

video generation model training agents world models latent actions video pretraining action transfer self-supervised learning

Olaf-World：面向视频世界建模的潜在动作定向 / Olaf-World: Orienting Latent Actions for Video World Modeling

1️⃣ 一句话总结

这篇论文提出了一种名为Olaf-World的新方法，通过一种创新的序列级对齐目标，从海量无标签视频中学习出具有通用语义、能跨场景迁移的潜在动作表示，从而显著提升了视频世界模型的动作控制能力和数据利用效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10095

arXiv 提交日期: 2026-02-10

video generation model training theory causal reasoning video diffusion architecture design computational efficiency temporal modeling

视频扩散模型中的因果性与去噪过程是可分离的 / Causality in Video Diffusers is Separable from Denoising

1️⃣ 一句话总结

这篇论文发现，在生成视频的扩散模型中，负责理解时间先后顺序的因果推理部分，可以和负责逐帧绘制细节的多步去噪过程分离开来，并据此提出了一种新的高效架构，在保证生成质量的同时大幅提升了处理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08794

arXiv 提交日期: 2026-02-09

video generation multi-modal aigc audio-visual generation mixture-of-experts open-source lip sync multimodal modeling

MOVA：迈向可扩展且同步的视频-音频生成 / MOVA: Towards Scalable and Synchronized Video-Audio Generation

1️⃣ 一句话总结

这篇论文介绍了一个名为MOVA的开源模型，它能够一次性生成高质量且口型、音效、音乐都与画面内容同步的视听内容，旨在解决现有生成模型常忽略音频或依赖低效级联流程的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08682

arXiv 提交日期: 2026-02-09

video generation aigc multi-modal audio-video generation text-to-video&audio animation mmdit architecture benchmark

ALIVE：用逼真的音视频生成技术为你的世界注入活力 / ALIVE: Animate Your World with Lifelike Audio-Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为ALIVE的生成模型，它通过改进现有视频生成模型，使其能根据文本或参考视频同步生成高质量且音画同步的视频和音频，性能媲美顶尖商业方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08753

arXiv 提交日期: 2026-02-09

computer vision video generation aigc character animation multi-view optimization 3d human pose video synthesis temporal consistency

MVAnimate：利用多视角优化增强角色动画 / MVAnimate: Enhancing Character Animation with Multi-View Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为MVAnimate的新框架，它通过整合2D和3D的多视角先验信息，有效提升了角色动画视频的生成质量，解决了现有方法输出质量低和训练数据不足的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.21188

1️⃣ 一句话总结

arXiv ID: 2602.20354

1️⃣ 一句话总结

arXiv ID: 2602.19900

1️⃣ 一句话总结

arXiv ID: 2602.15031

1️⃣ 一句话总结

arXiv ID: 2602.14027

1️⃣ 一句话总结

arXiv ID: 2602.10104

1️⃣ 一句话总结

arXiv ID: 2602.10095

1️⃣ 一句话总结

arXiv ID: 2602.08794

1️⃣ 一句话总结

arXiv ID: 2602.08682

1️⃣ 一句话总结

arXiv ID: 2602.08753

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.21188 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20354 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19900 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15031 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14027 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10104 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10095 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08794 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08682 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08753 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.21188

arXiv ID: 2602.20354

arXiv ID: 2602.19900

arXiv ID: 2602.15031

arXiv ID: 2602.14027

arXiv ID: 2602.10104

arXiv ID: 2602.10095

arXiv ID: 2602.08794

arXiv ID: 2602.08682

arXiv ID: 2602.08753