arXiv最新AI论文速览速学

🔍

video generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model 03-17

arXiv ID: 2603.14686

arXiv 提交日期: 2026-03-16

computer vision video generation multi-modal human-object interaction 3d foundation model video reenactment multi-view synthesis controllable generation

MVHOI：通过3D基础模型将多视角参考条件与复杂人-物交互视频重演相连接 / MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model

1️⃣ 一句话总结

这篇论文提出了一种名为MVHOI的两阶段方法，它利用3D基础模型作为桥梁，结合多角度参考图像，能够生成包含复杂三维物体操控（如翻转、旋转）的、逼真且连贯的人与物体交互视频，效果显著优于现有技术。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15026

arXiv 提交日期: 2026-03-16

video generation model evaluation multi-modal synthetic video detection zero-shot detection spatial-temporal modeling likelihood scoring training-free detection

基于时空似然性的免训练生成视频检测方法 / Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods

1️⃣ 一句话总结

这篇论文提出了一种名为STALL的免训练检测方法，它通过一个概率框架同时分析视频的空间和时间特征来识别AI生成的假视频，无需依赖特定生成器的数据就能有效应对新型模型，在多个测试中表现优于现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15478

arXiv 提交日期: 2026-03-16

video generation model training multi-modal video editing diffusion transformers parameter-efficient tuning temporal consistency image-to-video

ViFeEdit：一种无需视频数据的视频扩散变换器调优器 / ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer

1️⃣ 一句话总结

这篇论文提出了一种名为ViFeEdit的新方法，它可以在完全不依赖视频训练数据、仅使用2D图像进行少量调优的情况下，让视频扩散变换器模型实现高质量、时序一致的可控视频生成与编辑。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.12267

arXiv 提交日期: 2026-03-12

video generation model training aigc video tokenization autoregressive generation adaptive compression computational efficiency quality-cost trade-off

EVATok：用于高效视觉自回归生成的自适应长度视频标记化框架 / EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

1️⃣ 一句话总结

这篇论文提出了一个名为EVATok的智能视频压缩框架，它能够根据视频内容的复杂程度动态分配压缩资源，在保证高质量视频重建和生成的同时，显著减少了计算开销，比现有方法平均节省了超过24%的存储或处理资源。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11048

arXiv 提交日期: 2026-03-11

agents multi-modal video generation sketch comedy agentic system humor evaluation llm critics automated video production

COMIC：基于智能体的喜剧小品生成 / COMIC: Agentic Sketch Comedy Generation

1️⃣ 一句话总结

这篇论文提出了一个全自动AI系统，它通过模拟真实制作团队中不同角色的智能体进行竞争与迭代，并利用基于YouTube喜剧视频数据训练的AI评论家来评估幽默感，从而生成接近专业水准的喜剧短视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09094

arXiv 提交日期: 2026-03-10

video generation multi-modal model training causal reasoning physics-driven generation event decomposition cross-modal prompting video diffusion models

基于事件链因果推理的物理合理视频生成 / Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过将物理过程分解为因果关联的事件链并利用物理公式作为约束，显著提升了AI生成视频在物理规律上的合理性和连贯性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09819

arXiv 提交日期: 2026-03-10

computer vision video generation model training novel view synthesis video diffusion camera control confidence-aware interpolation geometry-aware generation

ConfCtrl：通过置信度感知插值实现视频扩散模型中的精确相机控制 / ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

1️⃣ 一句话总结

这篇论文提出了一种名为ConfCtrl的新方法，它能让AI视频生成模型在仅有两张输入图片的情况下，通过智能地融合相机指令和图像几何信息，稳定地生成大视角变化下的、遮挡区域也清晰合理的新视角画面。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09657

arXiv 提交日期: 2026-03-10

video generation model training computer vision video diffusion attention control kv caching background consistency training-free

何时锁定注意力：视频扩散模型中的免训练KV控制 / When to Lock Attention: Training-Free KV Control in Video Diffusion

1️⃣ 一句话总结

这篇论文提出了一种名为KV-Lock的免训练方法，它能智能地判断何时需要锁定视频背景、何时需要增强前景生成，从而在视频编辑中同时实现高质量的前景和稳定的背景。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04291

arXiv 提交日期: 2026-03-04

video generation computer vision multi-modal 360° video generation autoregressive diffusion cubemap representation virtual reality 4k resolution

CubeComposer：从透视视频生成时空自回归4K 360°视频 / CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

1️⃣ 一句话总结

这篇论文提出了一种名为CubeComposer的新方法，它通过将360度视频分解成六个立方体贴图面并按特定时空顺序自回归合成内容，从而首次实现了直接从透视视频原生生成高质量4K分辨率360度全景视频，解决了现有方法因计算限制只能生成低分辨率视频的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04338

arXiv 提交日期: 2026-03-04

computer vision multi-modal video generation 4d reconstruction human-object interaction articulated objects inverse rendering video priors

ArtHOI：基于视频先验4D重建的铰接式人-物交互合成 / ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

1️⃣ 一句话总结

这篇论文提出了一个名为ArtHOI的新方法，它无需3D数据监督，就能从AI生成的视频中自动重建出物理上合理、动作连贯的4D人机交互场景，尤其擅长处理像开关冰箱门、橱柜门这类带有铰链或转轴的可活动物体交互。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.14686

1️⃣ 一句话总结

arXiv ID: 2603.15026

1️⃣ 一句话总结

arXiv ID: 2603.15478

1️⃣ 一句话总结

arXiv ID: 2603.12267

1️⃣ 一句话总结

arXiv ID: 2603.11048

1️⃣ 一句话总结

arXiv ID: 2603.09094

1️⃣ 一句话总结

arXiv ID: 2603.09819

1️⃣ 一句话总结

arXiv ID: 2603.09657

1️⃣ 一句话总结

arXiv ID: 2603.04291

1️⃣ 一句话总结

arXiv ID: 2603.04338

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.14686 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15026 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15478 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.12267 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11048 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09094 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09819 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09657 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04291 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04338 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.14686

arXiv ID: 2603.15026

arXiv ID: 2603.15478

arXiv ID: 2603.12267

arXiv ID: 2603.11048

arXiv ID: 2603.09094

arXiv ID: 2603.09819

arXiv ID: 2603.09657

arXiv ID: 2603.04291

arXiv ID: 2603.04338