arXiv最新AI论文速览速学

🔍

标签: #video diffusion ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: GeoNVS: Geometry Grounded Video Diffusion for Novel View Synthesis 03-17

arXiv ID: 2603.14965

arXiv 提交日期: 2026-03-16

computer vision multi-modal model training novel view synthesis 3d gaussian splatting video diffusion geometric consistency feature adaptation

GeoNVS：基于几何约束的视频扩散模型用于新视角合成 / GeoNVS: Geometry Grounded Video Diffusion for Novel View Synthesis

1️⃣ 一句话总结

这篇论文提出了一种名为GeoNVS的新方法，它通过一个创新的‘高斯溅射特征适配器’将2D图像特征提升为3D几何表示，从而显著提升了从单一视角生成不同角度连贯且几何准确的图像的能力，并且无需额外训练即可兼容多种现有模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09819

arXiv 提交日期: 2026-03-10

computer vision video generation model training novel view synthesis video diffusion camera control confidence-aware interpolation geometry-aware generation

ConfCtrl：通过置信度感知插值实现视频扩散模型中的精确相机控制 / ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

1️⃣ 一句话总结

这篇论文提出了一种名为ConfCtrl的新方法，它能让AI视频生成模型在仅有两张输入图片的情况下，通过智能地融合相机指令和图像几何信息，稳定地生成大视角变化下的、遮挡区域也清晰合理的新视角画面。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09657

arXiv 提交日期: 2026-03-10

video generation model training computer vision video diffusion attention control kv caching background consistency training-free

何时锁定注意力：视频扩散模型中的免训练KV控制 / When to Lock Attention: Training-Free KV Control in Video Diffusion

1️⃣ 一句话总结

这篇论文提出了一种名为KV-Lock的免训练方法，它能智能地判断何时需要锁定视频背景、何时需要增强前景生成，从而在视频编辑中同时实现高质量的前景和稳定的背景。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02882

arXiv 提交日期: 2026-03-03

aigc video generation model training invisible watermarking video diffusion blind extraction causal 3d vae robustness

SIGMark：一种用于视频扩散模型的、支持盲提取的可扩展生成中水印技术 / SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

1️⃣ 一句话总结

这篇论文提出了一种名为SIGMark的新方法，它能在AI生成视频的过程中直接嵌入看不见的水印，并且无需存储大量密钥就能高效地检测出来，同时还能有效抵抗视频在时间和空间上的修改，解决了现有技术成本高、不抗干扰的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10173

arXiv 提交日期: 2026-02-10

computer vision systems multi-modal 3d gaussian splatting interactive segmentation ai-assisted editing video diffusion scene editing

ArtisanGS：结合人工智能与人机交互的高斯溅射选择交互式工具集 / ArtisanGS: Interactive Tools for Gaussian Splat Selection with AI and Human in the Loop

1️⃣ 一句话总结

这篇论文提出了一套名为ArtisanGS的交互式工具，它结合了AI自动选择和人工精细调整，让用户能够轻松地从复杂的三维高斯溅射场景中分割和编辑特定物体，从而支持更灵活的下游应用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10095

arXiv 提交日期: 2026-02-10

video generation model training theory causal reasoning video diffusion architecture design computational efficiency temporal modeling

视频扩散模型中的因果性与去噪过程是可分离的 / Causality in Video Diffusers is Separable from Denoising

1️⃣ 一句话总结

这篇论文发现，在生成视频的扩散模型中，负责理解时间先后顺序的因果推理部分，可以和负责逐帧绘制细节的多步去噪过程分离开来，并据此提出了一种新的高效架构，在保证生成质量的同时大幅提升了处理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.16515

arXiv 提交日期: 2026-01-23

model training video generation aigc sparse attention video diffusion linear attention efficient tuning computational efficiency

SALAD：通过高效的线性注意力微调实现视频扩散Transformer的高稀疏性注意力 / SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

1️⃣ 一句话总结

这篇论文提出了一种名为SALAD的新方法，通过在视频生成模型中巧妙地结合稀疏注意力和一个轻量级的线性注意力分支，并用一个智能门控机制来动态平衡两者，从而在几乎不损失生成质量的前提下，大幅提升了模型的计算效率，实现了90%的注意力稀疏度和1.72倍的推理加速，而且所需的训练数据和计算量非常少。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.05138

arXiv 提交日期: 2026-01-08

video generation multi-modal model training 4d geometric control video world model gaussian trajectories video diffusion data engine

VerseCrafter：具有4D几何控制的动态真实视频世界模型 / VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control

1️⃣ 一句话总结

这篇论文提出了一个名为VerseCrafter的新型视频生成模型，它通过一种创新的4D几何控制方法，能够精确且统一地操控视频中的摄像机视角和多个物体的运动轨迹，从而生成高保真且动态一致的视频内容。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.04342

arXiv 提交日期: 2026-01-07

video generation model training aigc video diffusion attention mechanism efficient training linear attention model distillation

ReHyAt：用于视频扩散变换器的循环混合注意力机制 / ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers

1️⃣ 一句话总结

这篇论文提出了一种名为ReHyAt的新型循环混合注意力机制，它巧妙地将高精度的传统注意力与高效率的线性注意力结合起来，在保持视频生成顶尖质量的同时，将计算成本从平方级大幅降低到线性级，从而让生成更长视频或在小设备上运行变得切实可行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.04090

arXiv 提交日期: 2026-01-07

computer vision multi-modal model training 3d scene generation video diffusion geometric latents reconstruction models point clouds

Gen3R：三维场景生成与前馈式重建的融合 / Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction

1️⃣ 一句话总结

这篇论文提出了一个名为Gen3R的新方法，它巧妙地将先进的3D重建模型和视频生成模型结合起来，能够根据一张或多张图片，一次性自动生成高质量的三维场景视频及其对应的几何结构（如深度图和点云），并在实验中取得了领先的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.14965

1️⃣ 一句话总结

arXiv ID: 2603.09819

1️⃣ 一句话总结

arXiv ID: 2603.09657

1️⃣ 一句话总结

arXiv ID: 2603.02882

1️⃣ 一句话总结

arXiv ID: 2602.10173

1️⃣ 一句话总结

arXiv ID: 2602.10095

1️⃣ 一句话总结

arXiv ID: 2601.16515

1️⃣ 一句话总结

arXiv ID: 2601.05138

1️⃣ 一句话总结

arXiv ID: 2601.04342

1️⃣ 一句话总结

arXiv ID: 2601.04090

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.14965 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09819 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09657 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02882 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10173 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10095 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.16515 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.05138 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.04342 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.04090 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.14965

arXiv ID: 2603.09819

arXiv ID: 2603.09657

arXiv ID: 2603.02882

arXiv ID: 2602.10173

arXiv ID: 2602.10095

arXiv ID: 2601.16515

arXiv ID: 2601.05138

arXiv ID: 2601.04342

arXiv ID: 2601.04090