arXiv最新AI论文速览速学

🔍

video generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model 03-17

arXiv ID: 2601.05848

arXiv 提交日期: 2026-01-09

video generation robotics model training physics-conditioned goals world models force vectors neural physics simulator zero-shot generalization

目标力：教导视频模型实现物理条件约束的目标 / Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals

1️⃣ 一句话总结

这篇论文提出了一种名为‘目标力’的新框架，它允许用户通过明确的力向量和中间动态过程来定义目标，从而训练视频生成模型理解和模拟物理交互，使其能够在复杂现实场景中实现精确、基于物理的目标规划。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.05966

arXiv 提交日期: 2026-01-09

video generation model training aigc autoregressive models next-frame prediction multi-scale tokenizer temporal consistency video synthesis

VideoAR：通过下一帧与尺度预测的自回归视频生成 / VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction

1️⃣ 一句话总结

本文提出了首个大规模视觉自回归视频生成框架VideoAR，它通过结合多尺度下一帧预测与自回归建模，在显著提升生成效率的同时，达到了与主流扩散模型相媲美的视频质量，为高效且高质量的视频生成提供了新方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.04792

arXiv 提交日期: 2026-01-08

video generation model training aigc diffusion models efficient inference pyramidal architecture model compression video synthesis

PyramidalWan：将预训练视频模型改造为金字塔结构以实现高效推理 / PyramidalWan: On Making Pretrained Video Model Pyramidal for Efficient Inference

1️⃣ 一句话总结

这篇论文提出了一种低成本微调方法，能够将现有的预训练视频扩散模型高效地转化为金字塔结构模型，在保持生成视频质量的同时，显著降低了推理时的计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.05138

arXiv 提交日期: 2026-01-08

video generation multi-modal model training 4d geometric control video world model gaussian trajectories video diffusion data engine

VerseCrafter：具有4D几何控制的动态真实视频世界模型 / VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control

1️⃣ 一句话总结

这篇论文提出了一个名为VerseCrafter的新型视频生成模型，它通过一种创新的4D几何控制方法，能够精确且统一地操控视频中的摄像机视角和多个物体的运动轨迹，从而生成高保真且动态一致的视频内容。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.05239

arXiv 提交日期: 2026-01-08

video generation multi-modal computer vision plenoptic video multi-view consistency video re-rendering spatio-temporal coherence autoregressive generation

全光视频生成 / Plenoptic Video Generation

1️⃣ 一句话总结

本文提出了一种名为PlenopticDreamer的新框架，它通过同步生成过程中的‘幻觉’内容来保持时空一致性，从而解决了现有方法在多视角视频生成中画面不连贯的难题，实现了高质量、可控且视角多样的视频重渲染。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.04342

arXiv 提交日期: 2026-01-07

video generation model training aigc video diffusion attention mechanism efficient training linear attention model distillation

ReHyAt：用于视频扩散变换器的循环混合注意力机制 / ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers

1️⃣ 一句话总结

这篇论文提出了一种名为ReHyAt的新型循环混合注意力机制，它巧妙地将高精度的传统注意力与高效率的线性注意力结合起来，在保持视频生成顶尖质量的同时，将计算成本从平方级大幅降低到线性级，从而让生成更长视频或在小设备上运行变得切实可行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.04194

arXiv 提交日期: 2026-01-07

computer vision video generation multi-modal 4d scene generation motion distillation lagrangian motion dynamic objects robotics manipulation

编排动态物体的世界 / Choreographing a World of Dynamic Objects

1️⃣ 一句话总结

这篇论文提出了一个名为CHORD的通用生成式方法，能够从普通2D视频中提取物体运动信息，从而自动生成和模拟各种动态物体与场景的复杂运动和交互，无需依赖大量特定类别的数据或人工规则。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02785

arXiv 提交日期: 2026-01-06

video generation aigc model training video stylization multi-modal conditioning low-rank adaptation data curation temporal consistency

DreamStyle：一种统一的视频风格化框架 / DreamStyle: A Unified Framework for Video Stylization

1️⃣ 一句话总结

这篇论文提出了一个名为DreamStyle的统一框架，它能同时支持文本、参考图片和首帧引导的视频风格化，并通过创新的数据构建和模型训练方法，有效解决了现有方法风格不一致和画面闪烁的问题，显著提升了视频质量和风格一致性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.01720

arXiv 提交日期: 2026-01-05

video generation model training data first-frame propagation video editing dataset temporal consistency positional encoding

FFP-300K：扩展首帧传播以实现通用视频编辑 / FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing

1️⃣ 一句话总结

这篇论文通过构建一个大规模高质量视频数据集（FFP-300K）并设计一种新的自适应框架，解决了现有视频编辑方法依赖繁琐引导的难题，实现了无需额外指引、能同时保持首帧外观和原视频运动的稳定视频编辑。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02358

arXiv 提交日期: 2026-01-05

multi-modal model training video generation unified visual generation multimodal diffusion transformer interleaved conditioning image-video editing multi-reference grounding

VINO：一种具有交错式全模态上下文的统一视觉生成器 / VINO: A Unified Visual Generator with Interleaved OmniModal Context

1️⃣ 一句话总结

这篇论文提出了一个名为VINO的统一模型，它能够在一个框架内同时处理图像和视频的生成与编辑任务，通过共享的扩散主干网络和交错的多模态输入编码，实现了高质量的跨模态视觉内容创作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.05848

1️⃣ 一句话总结

arXiv ID: 2601.05966

1️⃣ 一句话总结

arXiv ID: 2601.04792

1️⃣ 一句话总结

arXiv ID: 2601.05138

1️⃣ 一句话总结

arXiv ID: 2601.05239

1️⃣ 一句话总结

arXiv ID: 2601.04342

1️⃣ 一句话总结

arXiv ID: 2601.04194

1️⃣ 一句话总结

arXiv ID: 2601.02785

1️⃣ 一句话总结

arXiv ID: 2601.01720

1️⃣ 一句话总结

arXiv ID: 2601.02358

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.05848 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.05966 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.04792 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.05138 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.05239 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.04342 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.04194 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02785 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.01720 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02358 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.05848

arXiv ID: 2601.05966

arXiv ID: 2601.04792

arXiv ID: 2601.05138

arXiv ID: 2601.05239

arXiv ID: 2601.04342

arXiv ID: 2601.04194

arXiv ID: 2601.02785

arXiv ID: 2601.01720

arXiv ID: 2601.02358