arXiv最新AI论文速览速学

🔍

video generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model 03-17

arXiv ID: 2603.02802

arXiv 提交日期: 2026-03-03

video generation aigc computer vision video editing motion consistency unpaired training temporal coherence sparse control

NOVA：面向无配对视频编辑的稀疏控制与密集合成框架 / NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

1️⃣ 一句话总结

这篇论文提出了一个名为NOVA的新框架，它通过让用户只编辑视频中的少量关键帧来提供语义指导，同时利用原始视频的运动和纹理信息进行密集合成，从而在无需大量配对训练数据的情况下，实现了高质量、时序连贯的视频编辑。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02882

arXiv 提交日期: 2026-03-03

aigc video generation model training invisible watermarking video diffusion blind extraction causal 3d vae robustness

SIGMark：一种用于视频扩散模型的、支持盲提取的可扩展生成中水印技术 / SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

1️⃣ 一句话总结

这篇论文提出了一种名为SIGMark的新方法，它能在AI生成视频的过程中直接嵌入看不见的水印，并且无需存储大量密钥就能高效地检测出来，同时还能有效抵抗视频在时间和空间上的修改，解决了现有技术成本高、不抗干扰的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03066

arXiv 提交日期: 2026-03-03

video generation aigc benchmark video quality assessment educational videos text-to-video dataset multi-dimensional evaluation

EduVQA：面向教育领域的AI生成视频质量评估基准 / EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education

1️⃣ 一句话总结

这篇论文提出了首个用于评估教育类AI生成视频质量的基准数据集和评估框架，并通过一个创新的模型来同时衡量视频的视觉逼真度和内容与教学提示的匹配程度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02175

arXiv 提交日期: 2026-03-02

video generation aigc model training video editing instruction following reference guidance data generation multi-modal control

Kiwi-Edit：通过指令和参考引导实现多功能视频编辑 / Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

1️⃣ 一句话总结

这篇论文提出了一个名为Kiwi-Edit的视频编辑新方法，它通过结合文字指令和参考图像来更精准地控制编辑效果，并创造了一个大规模训练数据集来提升模型性能，在可控视频编辑任务上达到了当前最佳水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22960

arXiv 提交日期: 2026-02-26

computer vision video generation model training world models camera control long-term memory video generation diffusion transformer

UCM：通过时间感知位置编码扭曲统一相机控制与记忆的世界模型 / UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models

1️⃣ 一句话总结

这篇论文提出了一个名为UCM的新框架，它通过一种创新的时间感知位置编码扭曲技术，巧妙地解决了视频生成世界模型中长期内容不一致和相机控制不精准的两大难题，从而能生成既连贯又可控的高质量模拟环境视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21668

arXiv 提交日期: 2026-02-25

computer vision video generation model training 4d gaussian splatting scene forecasting motion modeling dynamic scenes space-time representation

基于运动感知高斯分组的动态场景时空预测 / Space-Time Forecasting of Dynamic Scenes with Motion-aware Gaussian Grouping

1️⃣ 一句话总结

这篇论文提出了一种名为MoGaF的新方法，它通过将场景中的物体按运动模式分组并进行优化，来更准确地预测动态场景的长期未来变化，从而生成更真实、更稳定的未来场景画面。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21188

arXiv 提交日期: 2026-02-24

computer vision video generation aigc human video generation diffusion models 3d pose control multi-view consistency image-to-video

基于单张图像、三维姿态与视角控制的人类视频生成 / Human Video Generation from a Single Image with 3D Pose and View Control

1️⃣ 一句话总结

这篇论文提出了一种名为HVG的新方法，它能够仅凭一张人物照片，通过控制三维姿态和观看角度，自动生成高质量、多视角、动作连贯流畅的人物视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20354

arXiv 提交日期: 2026-02-23

video generation model evaluation computer vision video realism 3d semantics autoencoder temporal consistency physical plausibility

3DSPA：一种用于评估视频真实性的3D语义点自动编码器 / 3DSPA: A 3D Semantic Point Autoencoder for Evaluating Video Realism

1️⃣ 一句话总结

这篇论文提出了一个名为3DSPA的自动化框架，它通过结合三维运动轨迹和场景语义来评估AI生成视频的真实性，无需参考视频，能有效检测违反物理规律的画面，并且其评估结果与人类判断高度一致。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19900

arXiv 提交日期: 2026-02-23

computer vision aigc video generation portrait generation diffusion models expression transfer personalized representation video synthesis

ExpPortrait：通过个性化表征生成富有表现力的肖像 / ExpPortrait: Expressive Portrait Generation via Personalized Representation

1️⃣ 一句话总结

这篇论文提出了一种新的高保真个性化头部表征方法，能更好地分离表情和身份信息，并基于此训练了一个扩散模型，从而生成在身份保持、表情准确性和细节丰富度上都更优的富有表现力的肖像视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15031

arXiv 提交日期: 2026-02-16

video generation model training computer vision video inpainting computational efficiency local-global control generative editing real-time editing

EditCtrl：用于实时生成式视频编辑的解耦局部与全局控制框架 / EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing

1️⃣ 一句话总结

这篇论文提出了一个名为EditCtrl的高效视频编辑框架，它通过将计算资源集中在需要修改的局部区域并辅以轻量级的全局一致性引导，在实现高质量视频编辑效果的同时，将计算效率提升了10倍，并能支持多区域编辑等新功能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.02802

1️⃣ 一句话总结

arXiv ID: 2603.02882

1️⃣ 一句话总结

arXiv ID: 2603.03066

1️⃣ 一句话总结

arXiv ID: 2603.02175

1️⃣ 一句话总结

arXiv ID: 2602.22960

1️⃣ 一句话总结

arXiv ID: 2602.21668

1️⃣ 一句话总结

arXiv ID: 2602.21188

1️⃣ 一句话总结

arXiv ID: 2602.20354

1️⃣ 一句话总结

arXiv ID: 2602.19900

1️⃣ 一句话总结

arXiv ID: 2602.15031

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.02802 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02882 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03066 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02175 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22960 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21668 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21188 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20354 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19900 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15031 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.02802

arXiv ID: 2603.02882

arXiv ID: 2603.03066

arXiv ID: 2603.02175

arXiv ID: 2602.22960

arXiv ID: 2602.21668

arXiv ID: 2602.21188

arXiv ID: 2602.20354

arXiv ID: 2602.19900

arXiv ID: 2602.15031