arXiv最新AI论文速览速学

🔍

video generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 200 72小时内新更新论文 72h更新 205 最新: MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model 03-17

arXiv ID: 2601.01528

arXiv 提交日期: 2026-01-04

benchmark video generation agents autonomous driving world models evaluation metrics synthetic data temporal coherence

DrivingGen：自动驾驶中生成式视频世界模型的综合基准 / DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

1️⃣ 一句话总结

这篇论文提出了首个针对自动驾驶生成式视频世界模型的综合基准测试DrivingGen，它通过一个多样化的数据集和一套新的评估指标，系统地衡量了模型的视觉真实性、轨迹合理性、时间一致性及可控性，揭示了现有模型在物理准确性与视觉质量之间的权衡。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.01425

arXiv 提交日期: 2026-01-04

computer vision video generation aigc face swapping diffusion transformer video synthesis identity preservation benchmark

DreamID-V：通过扩散Transformer弥合图像到视频的鸿沟以实现高保真人脸交换 / DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer

1️⃣ 一句话总结

这篇论文提出了一个名为DreamID-V的新框架，它利用扩散Transformer技术，通过创新的数据构建和训练策略，成功地将高质量的图像人脸交换能力迁移到视频领域，在保持身份相似度和视频动态连贯性的同时，显著提升了视频人脸交换的真实感和效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.00393

arXiv 提交日期: 2026-01-01

computer vision multi-modal video generation 4d reconstruction world model monocular video novel view synthesis video generation

NeoVerse：利用真实世界单目视频增强的4D世界模型 / NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

1️⃣ 一句话总结

这篇论文提出了一个名为NeoVerse的新型4D世界模型，它能够仅使用网络上随手可得的普通单镜头视频，就能高效地重建动态三维场景并生成新视角视频，解决了以往方法对昂贵专业数据或复杂预处理的依赖，在多个任务上达到了领先水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24724

arXiv 提交日期: 2025-12-31

video generation model training aigc diffusion models sampling strategy computational efficiency model capacity temporal coherence

FlowBlending：面向阶段感知的多模型采样策略，用于快速且高保真的视频生成 / FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation

1️⃣ 一句话总结

这篇论文提出了一种名为FlowBlending的智能采样方法，它根据视频生成过程中不同阶段对模型能力需求不同的特点，巧妙地组合使用大模型和小模型，从而在保持高质量生成效果的同时，大幅提升了生成速度并减少了计算开销。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24766

arXiv 提交日期: 2025-12-31

robotics video generation multi-modal 3d object flow open-world manipulation trajectory optimization zero-shot learning video-to-action

Dream2Flow：通过3D物体流连接视频生成与开放世界操作 / Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow

1️⃣ 一句话总结

这篇论文提出了一个名为Dream2Flow的框架，它通过从AI生成的视频中提取3D物体运动轨迹，并将其转化为机器人可执行的指令，从而让机器人能在没有专门训练的情况下，完成对各类物体的零样本操作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.25075

arXiv 提交日期: 2025-12-31

computer vision video generation aigc video diffusion spatiotemporal disentanglement camera control temporal editing generative rendering

时空导航者：跨时空动态场景的生成式渲染 / SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time

1️⃣ 一句话总结

这篇论文提出了一个名为SpaceTimePilot的视频生成模型，它能够将视频中的空间（摄像机视角）和时间（物体运动）分开控制，从而让用户自由地改变视频的拍摄角度和动作序列，实现动态场景的灵活再创作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23576

arXiv 提交日期: 2025-12-29

video generation model training multi-modal real-time video diffusion on-policy distillation multimodal conditioning interactive avatar latency reduction

LiveTalk：通过改进的策略内蒸馏实现实时多模态交互式视频扩散 / LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation

1️⃣ 一句话总结

这篇论文提出了一种名为LiveTalk的实时多模态交互式虚拟人视频生成系统，它通过改进的模型蒸馏技术，在保证视频质量的同时，将生成延迟从数分钟大幅降低到实时水平，从而实现了流畅的人机多模态对话互动。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23222

arXiv 提交日期: 2025-12-29

multi-modal aigc video generation unified generation script-to-video mixture-of-transformers keyframe consistency interleaved learning

通过统一导演模型连接想象与音视频生成 / Bridging Your Imagination with Audio-Video Generation via a Unified Director

1️⃣ 一句话总结

这篇论文提出了一个名为UniMAGE的统一导演模型，它能够将用户的想法自动转化为逻辑连贯的剧本和视觉一致的关键画面，从而帮助普通人轻松制作出多镜头、长内容的电影。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.21734

arXiv 提交日期: 2025-12-25

video generation aigc model training portrait animation autoregressive diffusion real-time generation temporal coherence streaming inference

节点强制：驯服自回归视频扩散模型以实现实时无限交互式肖像动画 / Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation

1️⃣ 一句话总结

这篇论文提出了一种名为“节点强制”的新方法，通过分块生成、重叠区域平滑和前瞻更新机制，解决了现有实时肖像动画模型在连贯性和延迟上的难题，从而能在普通显卡上实现高质量、无限长的流畅互动动画。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.21507

arXiv 提交日期: 2025-12-25

video generation benchmark model evaluation social reasoning text-to-video evaluation framework multi-agent video generation benchmark

SVBench：视频生成模型在社会推理能力上的评估 / SVBench: Evaluation of Video Generation Models on Social Reasoning

1️⃣ 一句话总结

这篇论文提出了首个用于评估视频生成模型社会推理能力的基准SVBench，发现当前先进模型虽然在画面真实性和动作流畅度上表现优秀，但在理解人物意图、信念、共同关注等深层社会逻辑方面存在系统性不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.01528

1️⃣ 一句话总结

arXiv ID: 2601.01425

1️⃣ 一句话总结

arXiv ID: 2601.00393

1️⃣ 一句话总结

arXiv ID: 2512.24724

1️⃣ 一句话总结

arXiv ID: 2512.24766

1️⃣ 一句话总结

arXiv ID: 2512.25075

1️⃣ 一句话总结

arXiv ID: 2512.23576

1️⃣ 一句话总结

arXiv ID: 2512.23222

1️⃣ 一句话总结

arXiv ID: 2512.21734

1️⃣ 一句话总结

arXiv ID: 2512.21507

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.01528 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.01425 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.00393 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24724 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24766 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.25075 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23576 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23222 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.21734 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.21507 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.01528

arXiv ID: 2601.01425

arXiv ID: 2601.00393

arXiv ID: 2512.24724

arXiv ID: 2512.24766

arXiv ID: 2512.25075

arXiv ID: 2512.23576

arXiv ID: 2512.23222

arXiv ID: 2512.21734

arXiv ID: 2512.21507