arXiv最新AI论文速览速学

🔍

标签: #video generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: Chain of Event-Centric Causal Thought for Physically Plausible Video Generation 03-16

arXiv ID: 2601.16296

arXiv 提交日期: 2026-01-22

video generation model training multi-modal video-to-video diffusion iterative editing cross-consistency memory-augmented generation token compression

Memory-V2V：为视频到视频扩散模型增加记忆模块 / Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

1️⃣ 一句话总结

这篇论文提出了一个名为Memory-V2V的新框架，它通过给现有的视频编辑AI模型增加一个‘记忆库’，让用户在多次、反复编辑同一个视频时，能自动参考之前的编辑结果，从而保持视频整体风格和内容的一致性，同时还提高了处理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.16192

arXiv 提交日期: 2026-01-22

computer vision multi-modal model training 360° panorama generation diffusion transformers geometry-free lifting video generation equirectangular projection

360Anything：无需几何信息的图像与视频全景化生成 / 360Anything: Geometry-Free Lifting of Images and Videos to 360°

1️⃣ 一句话总结

这篇论文提出了一种名为360Anything的新方法，它无需依赖相机的几何信息，就能将普通的平面图像或视频直接转换成无缝的360度全景内容，并且在生成质量和通用性上都超越了现有技术。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.16163

arXiv 提交日期: 2026-01-22

robotics model training video generation visuomotor control latent diffusion policy learning robot planning video model fine-tuning

Cosmos策略：通过微调视频模型实现视觉运动控制与规划 / Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

1️⃣ 一句话总结

这篇论文提出了一种名为Cosmos Policy的简单方法，它通过直接在目标平台的机器人演示数据上对预训练的大型视频模型进行一次微调，无需修改模型结构，就能将其转变为一个能直接生成机器人动作、预测未来状态并进行规划的高性能机器人策略，在多项仿真和真实世界任务中取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.15282

arXiv 提交日期: 2026-01-21

video generation robotics benchmark embodied ai dataset evaluation metrics physical realism synthetic data

为具身世界重新思考视频生成模型 / Rethinking Video Generation Model for the Embodied World

1️⃣ 一句话总结

这篇论文通过创建一个名为RBench的标准化机器人视频生成评测基准和一个包含400万标注视频片段的大型开源数据集RoVid-X，旨在解决现有模型难以生成物理真实机器人行为的问题，为具身人工智能的发展提供了评估和训练的基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14250

arXiv 提交日期: 2026-01-20

video generation multi-modal model training video transfer spatio-temporal unified framework temporal alignment multimodal guidance

OmniTransfer：时空视频迁移的一体化框架 / OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer

1️⃣ 一句话总结

这篇论文提出了一个名为OmniTransfer的统一框架，它能够利用视频中的时空信息，灵活高效地完成外观（如身份、风格）和时序（如摄像机运动、特效）等多种视频迁移任务，无需依赖特定任务先验知识即可实现高质量的视频生成。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.11087

arXiv 提交日期: 2026-01-16

video generation reinforcement learning model training physics-aware generation rigid body motion collision simulation reinforcement learning fine-tuning video benchmark

PhysRVG：面向视频生成模型的物理感知统一强化学习 / PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models

1️⃣ 一句话总结

这篇论文首次提出了一种物理感知的强化学习框架，通过直接在视频生成过程中强制执行物理碰撞规则，并引入一个名为‘模仿-发现循环’的统一训练范式，显著提升了生成视频中刚体运动的物理真实感。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10781

arXiv 提交日期: 2026-01-15

computer vision multi-modal robotics optical flow prediction vision-language model diffusion models robot manipulation video generation

未来光流预测改进机器人控制与视频生成 / Future Optical Flow Prediction Improves Robot Control & Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为FOFPred的新模型，它结合了视觉语言模型和扩散模型，能够根据语言指令预测未来的物体运动趋势（光流），并成功应用于机器人操控和视频生成两个不同领域，展示了从海量网络视频数据中学习通用运动预测的潜力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10553

arXiv 提交日期: 2026-01-15

video generation model evaluation multi-modal physics alignment inference-time optimization latent world models video generative models denoising trajectories

利用潜在世界模型在推理时对齐视频生成模型的物理规律 / Inference-time Physics Alignment of Video Generative Models with Latent World Models

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过利用一个能理解物理规律的‘潜在世界模型’作为指导，在视频生成过程中实时调整和优化多个候选生成路径，从而显著提升了生成视频的物理合理性，并在相关竞赛中取得了第一名。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10103

arXiv 提交日期: 2026-01-15

video generation aigc agents interactive video humanoid agents real-time synthesis temporal consistency full-body control

FlowAct-R1：迈向交互式人形视频生成 / FlowAct-R1: Towards Interactive Humanoid Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为FlowAct-R1的新框架，它能够实时生成栩栩如生、能与用户持续互动的人形角色视频，在保证高质量画面的同时，实现了低延迟和流畅的交互体验。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10061

arXiv 提交日期: 2026-01-15

video generation text-to-image model training chain-of-frame reasoning visual refinement progressive generation video models aesthetic enhancement

CoF-T2I：将视频模型作为纯视觉推理器用于文本到图像生成 / CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation

1️⃣ 一句话总结

这项研究提出了一种名为CoF-T2I的新方法，它巧妙地将视频生成模型中的‘帧链’推理能力用于文本生成图像任务，通过让模型像做视觉推理一样逐步优化图像细节，从而显著提升了生成图像的质量和美感。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.16296

1️⃣ 一句话总结

arXiv ID: 2601.16192

1️⃣ 一句话总结

arXiv ID: 2601.16163

1️⃣ 一句话总结

arXiv ID: 2601.15282

1️⃣ 一句话总结

arXiv ID: 2601.14250

1️⃣ 一句话总结

arXiv ID: 2601.11087

1️⃣ 一句话总结

arXiv ID: 2601.10781

1️⃣ 一句话总结

arXiv ID: 2601.10553

1️⃣ 一句话总结

arXiv ID: 2601.10103

1️⃣ 一句话总结

arXiv ID: 2601.10061

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.16296 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.16192 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.16163 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.15282 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14250 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.11087 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10781 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10553 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10103 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10061 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.16296

arXiv ID: 2601.16192

arXiv ID: 2601.16163

arXiv ID: 2601.15282

arXiv ID: 2601.14250

arXiv ID: 2601.11087

arXiv ID: 2601.10781

arXiv ID: 2601.10553

arXiv ID: 2601.10103

arXiv ID: 2601.10061