arXiv最新AI论文速览速学

🔍

标签: #video generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: InteractiveAvatar: Real-Time Streaming Video Generation for Consistent and Intent-Aware Avatars 06-23

arXiv ID: 2604.19741

arXiv 提交日期: 2026-04-21

computer vision video generation aigc video generation spatially grounded 3d consistency navigable environment autonomous driving

CityRAG：通过空间锚定的视频生成步入城市 / CityRAG: Stepping Into a City via Spatially-Grounded Video Generation

1️⃣ 一句话总结

CityRAG提出了一种新的视频生成模型，能够利用真实地理数据生成与物理世界一致、可自由导航的长视频，并支持任意天气和动态物体变化，从而为自动驾驶和机器人仿真提供高保真的虚拟城市环境。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19234

arXiv 提交日期: 2026-04-21

reinforcement learning computer vision video generation grpo reward credit assignment diffusion models multi-objective optimization visual generation

学习为正确的步骤分配功劳：面向目标的视觉生成过程优化 / Learning to Credit the Right Steps: Objective-aware Process Optimization for Visual Generation

1️⃣ 一句话总结

本文提出了一种名为OTCA的框架，通过将多个奖励信号（如图像质量、运动一致性）按去噪步骤的重要性进行分解和自适应分配，从而让强化学习训练更精准地指导视觉生成模型，显著提升图像和视频的生成质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18348

arXiv 提交日期: 2026-04-20

video generation model training machine learning sparse attention attention clustering diffusion transformers inference acceleration

AdaCluster：面向视频生成中稀疏注意力机制的自适应查询-键聚类方法 / AdaCluster: Adaptive Query-Key Clustering for Sparse Attention in Video Generation

1️⃣ 一句话总结

该论文提出了一种无需训练的智能聚类方法AdaCluster，通过为查询向量和键向量分别设计不同的相似度聚类算法，并动态调整聚类数量和重点区域，在保证视频生成质量的前提下，将现有视频扩散模型的推理速度提升了1.6至4.3倍。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14953

arXiv 提交日期: 2026-04-16

video generation aigc multi-modal gesture synthesis synthetic data image-to-video deictic gestures data augmentation

提示词生成手势：评估图像到视频指代手势生成模型的能力 / Prompt-to-Gesture: Measuring the Capabilities of Image-to-Video Deictic Gesture Generation

1️⃣ 一句话总结

这篇论文提出了一种利用图像到视频生成模型，仅需少量真人手势样本就能自动合成逼真且多样化的指代手势视频数据的方法，并通过实验证明这些合成数据能有效提升下游手势识别任务的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.15086

arXiv 提交日期: 2026-04-16

multi-modal audio video generation video-to-audio cross-modal conflict controllable generation benchmark multimodal alignment

ControlFoley：一种具有跨模态冲突处理能力的统一可控视频转音频生成方法 / ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling

1️⃣ 一句话总结

这篇论文提出了一个名为ControlFoley的先进系统，它能够根据视频内容、文字描述或参考音频片段，精确且可控地生成高质量、同步的音频，并有效解决了不同输入信息之间可能存在的冲突问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14148

arXiv 提交日期: 2026-04-15

video generation multi-modal aigc audio-video generation multimodal input content editing generative model creative tools

Seedance 2.0：面向世界复杂性的视频生成技术进展 / Seedance 2.0: Advancing Video Generation for World Complexity

1️⃣ 一句话总结

Seedance 2.0是一款全新的多模态音视频生成模型，它通过统一的先进架构，能够根据文字、图像、音频和视频等多种输入直接生成高质量的短视频，在生成质量和多模态参考能力上相比前代实现了全面提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12887

arXiv 提交日期: 2026-04-14

video generation model training multi-modal video tokenization coarse-to-fine representation generative modeling efficient training long video generation

VideoFlexTok：一种从粗到细、长度可灵活调整的视频表征方法 / VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization

1️⃣ 一句话总结

这篇论文提出了一种新的视频表征方法，它不像传统方法那样把视频固定成一个三维网格，而是将其编码成一个长度可变的序列，其中前面的‘粗’令牌捕捉语义和运动等抽象信息，后面的‘细’令牌补充细节，从而让下游的AI模型（如文生视频模型）训练更高效、能处理更长的视频，且模型可以更小。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13036

arXiv 提交日期: 2026-04-14

computer vision video generation aigc 3d scene generation video-to-3d long-horizon generation autoregressive synthesis generative reconstruction

Lyra 2.0：可探索的生成式3D世界 / Lyra 2.0: Explorable Generative 3D Worlds

1️⃣ 一句话总结

这篇论文提出了一个名为Lyra 2.0的新框架，它通过改进长视频生成技术来创建大规模、持久且可探索的高质量3D虚拟世界，解决了现有方法在生成过程中容易‘忘记’已生成区域和画面质量随时间‘漂移’变差的两大难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07958

arXiv 提交日期: 2026-04-09

video generation model training computer vision video editing attention mechanism spatial learning image-to-video temporal consistency

ImVideoEdit：通过2D空间差异注意力块实现基于图像学习的视频编辑 / ImVideoEdit: Image-learning Video Editing via 2D Spatial Difference Attention Blocks

1️⃣ 一句话总结

这篇论文提出了一种名为ImVideoEdit的高效视频编辑框架，它仅需使用成对的图像数据进行训练，就能在保持视频原有动态连贯性的同时，实现对画面内容的精准、自适应修改，大大降低了对昂贵视频配对数据的依赖和计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06168

arXiv 提交日期: 2026-04-07

robotics multi-modal model training policy learning video generation world action models zero-shot policy multiview video

动作图像：通过多视角视频生成的端到端策略学习 / Action Images: End-to-End Policy Learning via Multiview Video Generation

1️⃣ 一句话总结

这篇论文提出了一种名为‘动作图像’的新方法，它将机器人的动作转化为易于理解的多视角视频片段，从而让一个现成的视频生成模型能直接作为机器人策略来使用，无需额外模块，并在多项任务中取得了出色的零样本性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.19741

1️⃣ 一句话总结

arXiv ID: 2604.19234

1️⃣ 一句话总结

arXiv ID: 2604.18348

1️⃣ 一句话总结

arXiv ID: 2604.14953

1️⃣ 一句话总结

arXiv ID: 2604.15086

1️⃣ 一句话总结

arXiv ID: 2604.14148

1️⃣ 一句话总结

arXiv ID: 2604.12887

1️⃣ 一句话总结

arXiv ID: 2604.13036

1️⃣ 一句话总结

arXiv ID: 2604.07958

1️⃣ 一句话总结

arXiv ID: 2604.06168

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.19741 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19234 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18348 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14953 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.15086 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14148 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12887 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13036 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07958 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06168 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.19741

arXiv ID: 2604.19234

arXiv ID: 2604.18348

arXiv ID: 2604.14953

arXiv ID: 2604.15086

arXiv ID: 2604.14148

arXiv ID: 2604.12887

arXiv ID: 2604.13036

arXiv ID: 2604.07958

arXiv ID: 2604.06168