arXiv最新AI论文速览速学

🔍

video generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model 03-17

arXiv ID: 2601.14250

arXiv 提交日期: 2026-01-20

video generation multi-modal model training video transfer spatio-temporal unified framework temporal alignment multimodal guidance

OmniTransfer：时空视频迁移的一体化框架 / OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer

1️⃣ 一句话总结

这篇论文提出了一个名为OmniTransfer的统一框架，它能够利用视频中的时空信息，灵活高效地完成外观（如身份、风格）和时序（如摄像机运动、特效）等多种视频迁移任务，无需依赖特定任务先验知识即可实现高质量的视频生成。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.11087

arXiv 提交日期: 2026-01-16

video generation reinforcement learning model training physics-aware generation rigid body motion collision simulation reinforcement learning fine-tuning video benchmark

PhysRVG：面向视频生成模型的物理感知统一强化学习 / PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models

1️⃣ 一句话总结

这篇论文首次提出了一种物理感知的强化学习框架，通过直接在视频生成过程中强制执行物理碰撞规则，并引入一个名为‘模仿-发现循环’的统一训练范式，显著提升了生成视频中刚体运动的物理真实感。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10553

arXiv 提交日期: 2026-01-15

video generation model evaluation multi-modal physics alignment inference-time optimization latent world models video generative models denoising trajectories

利用潜在世界模型在推理时对齐视频生成模型的物理规律 / Inference-time Physics Alignment of Video Generative Models with Latent World Models

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过利用一个能理解物理规律的‘潜在世界模型’作为指导，在视频生成过程中实时调整和优化多个候选生成路径，从而显著提升了生成视频的物理合理性，并在相关竞赛中取得了第一名。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10103

arXiv 提交日期: 2026-01-15

video generation aigc agents interactive video humanoid agents real-time synthesis temporal consistency full-body control

FlowAct-R1：迈向交互式人形视频生成 / FlowAct-R1: Towards Interactive Humanoid Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为FlowAct-R1的新框架，它能够实时生成栩栩如生、能与用户持续互动的人形角色视频，在保证高质量画面的同时，实现了低延迟和流畅的交互体验。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10061

arXiv 提交日期: 2026-01-15

video generation text-to-image model training chain-of-frame reasoning visual refinement progressive generation video models aesthetic enhancement

CoF-T2I：将视频模型作为纯视觉推理器用于文本到图像生成 / CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation

1️⃣ 一句话总结

这项研究提出了一种名为CoF-T2I的新方法，它巧妙地将视频生成模型中的‘帧链’推理能力用于文本生成图像任务，通过让模型像做视觉推理一样逐步优化图像细节，从而显著提升了生成图像的质量和美感。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.09255

arXiv 提交日期: 2026-01-14

video generation multi-modal model training physics-constrained generation training-free pipeline video synthesis motion planning latent fusion

PhyRPR：无需训练的物理约束视频生成 / PhyRPR: Training-Free Physics-Constrained Video Generation

1️⃣ 一句话总结

这篇论文提出了一种无需额外训练的三阶段视频生成方法，通过将物理推理与视觉合成分离开来，先理解物理状态、再规划运动骨架、最后生成细节，从而让AI生成的视频更符合物理规律且运动可控。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.09881

arXiv 提交日期: 2026-01-14

video generation model training aigc knowledge distillation diffusion models flow matching text-to-video efficient inference

用于快速视频生成的过渡匹配蒸馏 / Transition Matching Distillation for Fast Video Generation

1️⃣ 一句话总结

这项研究提出了一种名为‘过渡匹配蒸馏’的新方法，它通过将大型视频扩散模型的知识压缩到轻量级条件流模型中，在保持视频生成质量的同时，大幅提升了生成速度，使其更适用于实时交互应用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.09697

arXiv 提交日期: 2026-01-14

video generation computer vision model training 3d reconstruction diffusion models keyframe generation real-time rendering camera control

通过稀疏扩散与3D渲染实现静态场景的高效相机控制视频生成 / Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering

1️⃣ 一句话总结

这篇论文提出了一种名为SRENDER的新方法，它通过先用扩散模型生成少量关键帧，再利用3D重建和渲染技术合成完整视频，从而在保证高质量画面的同时，将视频生成速度提升超过40倍，解决了现有模型计算效率低、难以实时交互的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.08828

arXiv 提交日期: 2026-01-13

video generation model training data motion attribution data curation gradient-based attribution temporal dynamics fine-tuning

视频生成中的运动归因 / Motion Attribution for Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为Motive的框架，它能找出训练数据中哪些视频片段对AI生成视频的‘运动效果’影响最大，并利用这些发现来优化数据选择，从而让生成的视频动作更流畅、更符合物理规律。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.07287

arXiv 提交日期: 2026-01-12

video generation model training multi-modal image-to-video diffusion models controllability semantic guidance attention mechanisms

焦点引导：从视频扩散模型的语义薄弱层中解锁可控性 / Focal Guidance: Unlocking Controllability from Semantic-Weak Layers in Video Diffusion Models

1️⃣ 一句话总结

这项研究提出了一种名为‘焦点引导’的新方法，通过识别并强化视频生成模型中那些对文字指令响应较弱的‘语义薄弱层’，有效提升了模型根据文字描述生成视频的准确性和可控性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.14250

1️⃣ 一句话总结

arXiv ID: 2601.11087

1️⃣ 一句话总结

arXiv ID: 2601.10553

1️⃣ 一句话总结

arXiv ID: 2601.10103

1️⃣ 一句话总结

arXiv ID: 2601.10061

1️⃣ 一句话总结

arXiv ID: 2601.09255

1️⃣ 一句话总结

arXiv ID: 2601.09881

1️⃣ 一句话总结

arXiv ID: 2601.09697

1️⃣ 一句话总结

arXiv ID: 2601.08828

1️⃣ 一句话总结

arXiv ID: 2601.07287

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.14250 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.11087 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10553 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10103 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10061 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.09255 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.09881 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.09697 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.08828 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.07287 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.14250

arXiv ID: 2601.11087

arXiv ID: 2601.10553

arXiv ID: 2601.10103

arXiv ID: 2601.10061

arXiv ID: 2601.09255

arXiv ID: 2601.09881

arXiv ID: 2601.09697

arXiv ID: 2601.08828

arXiv ID: 2601.07287