arXiv最新AI论文速览速学

🔍

标签: #temporal consistency ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Diffusion Forcing Planner: History-Annealed Planning with Time-Dependent Guidance for Autonomous Driving 06-10

arXiv ID: 2606.11019

arXiv 提交日期: 2026-06-09

machine learning robotics model training diffusion model motion planning autonomous driving temporal consistency joint denoising

扩散驱动规划器：基于时序退火历史信息与依赖时间引导的自动驾驶规划方法 / Diffusion Forcing Planner: History-Annealed Planning with Time-Dependent Guidance for Autonomous Driving

1️⃣ 一句话总结

本文提出了一种名为“扩散驱动规划器”的自动驾驶运动规划新方法，通过将完整轨迹分为历史、当前和未来三部分并分别施加不同程度的噪声，再利用可控的历史信息退火引导生成连续、稳定且安全的未来行驶轨迹，有效解决了传统规划器因帧间微小差异累积导致的不稳定问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.20910

arXiv 提交日期: 2026-05-20

video generation model training multi-modal long video generation inference-time method diffusion model temporal consistency tweedie matching

FlowLong：基于流形约束Tweedie匹配的推理时长视频生成 / FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching

1️⃣ 一句话总结

本文提出一种无需额外训练的长视频生成方法，通过滑动窗口和Tweedie匹配技术融合相邻片段，同时利用随机早期采样保持画面一致性，能生成比原始窗口长数倍的高质量视频，并适用于音频-视频联合生成等任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.21472

arXiv 提交日期: 2026-05-20

computer vision machine learning 3d generation multi-view streaming evidential memory temporal consistency

Stream3D：基于证据记忆的序列化多视角三维生成 / Stream3D: Sequential Multi-View 3D Generation via Evidential Memory

1️⃣ 一句话总结

Stream3D提出了一种无需重新训练的流式生成机制，通过一个紧凑的证据记忆模块，从不断变化的单目视频流中智能选择最关键的帧，使得已有的单视角3D生成器能够稳定、一致地生成连续的三维对象，解决了长序列下内存爆炸和结果跳变的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.15042

arXiv 提交日期: 2026-05-14

video generation aigc computer vision human animation long-horizon generation latent flow restoration temporal consistency character identity

EverAnimate：基于潜在流恢复的分级长时间人类动画生成 / EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration

1️⃣ 一句话总结

该论文提出一种轻量级后训练方法，通过维护一个持续的记忆上下文来恢复动画过程中因长序列生成而导致的画面质量与角色身份漂移，从而高效生成长达90秒、人景一致且清晰流畅的人类动画。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13789

arXiv 提交日期: 2026-04-15

computer vision robotics systems 3d object tracking long-term memory temporal consistency lidar point clouds real-time tracking

用于三维单目标跟踪的时序一致长时记忆模型 / Temporally Consistent Long-Term Memory for 3D Single Object Tracking

1️⃣ 一句话总结

这篇论文提出了一个名为ChronoTrack的新方法，通过引入一个紧凑且时序一致的长时记忆模块，有效解决了三维点云序列中目标跟踪因特征漂移和记忆开销大而难以长期稳定的问题，从而在多个标准测试集上取得了最佳性能并能实时运行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07958

arXiv 提交日期: 2026-04-09

video generation model training computer vision video editing attention mechanism spatial learning image-to-video temporal consistency

ImVideoEdit：通过2D空间差异注意力块实现基于图像学习的视频编辑 / ImVideoEdit: Image-learning Video Editing via 2D Spatial Difference Attention Blocks

1️⃣ 一句话总结

这篇论文提出了一种名为ImVideoEdit的高效视频编辑框架，它仅需使用成对的图像数据进行训练，就能在保持视频原有动态连贯性的同时，实现对画面内容的精准、自适应修改，大大降低了对昂贵视频配对数据的依赖和计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28064

arXiv 提交日期: 2026-03-30

computer vision model training systems dynamic scene reconstruction gaussian splatting signed distance function surface reconstruction temporal consistency

4DSurf：高保真动态场景表面重建 / \textit{4DSurf}: High-Fidelity Dynamic Scene Surface Reconstruction

1️⃣ 一句话总结

这篇论文提出了一个名为4DSurf的新框架，它能够统一、高精度地重建包含大变形物体的复杂动态场景表面，并保持时间上的一致性，性能显著优于现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.18501

arXiv 提交日期: 2026-03-19

video generation model training multi-modal video compression diffusion models temporal consistency low-bitrate perceptual quality

基于稀疏信息传输的高效视频扩散模型用于视频压缩 / Efficient Video Diffusion with Sparse Information Transmission for Video Compression

1️⃣ 一句话总结

这篇论文提出了一种名为Diff-SIT的新方法，它通过稀疏编码和一步式视频扩散技术，在极低码率下显著提升了视频压缩的视觉观感和时间连贯性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17651

arXiv 提交日期: 2026-03-18

computer vision video generation model training inbetweening attention mechanisms video synthesis temporal consistency benchmark

基于锚定与重缩放注意力的语义连贯中间帧生成 / Anchoring and Rescaling Attention for Semantically Coherent Inbetweening

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过锚定关键帧注意力和重缩放时间编码，在给定首尾关键帧和文本描述的条件下，生成了语义更连贯、节奏更稳定的动画中间帧，并在专门构建的评测基准上取得了最佳效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15478

arXiv 提交日期: 2026-03-16

video generation model training multi-modal video editing diffusion transformers parameter-efficient tuning temporal consistency image-to-video

ViFeEdit：一种无需视频数据的视频扩散变换器调优器 / ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer

1️⃣ 一句话总结

这篇论文提出了一种名为ViFeEdit的新方法，它可以在完全不依赖视频训练数据、仅使用2D图像进行少量调优的情况下，让视频扩散变换器模型实现高质量、时序一致的可控视频生成与编辑。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.11019

1️⃣ 一句话总结

arXiv ID: 2605.20910

1️⃣ 一句话总结

arXiv ID: 2605.21472

1️⃣ 一句话总结

arXiv ID: 2605.15042

1️⃣ 一句话总结

arXiv ID: 2604.13789

1️⃣ 一句话总结

arXiv ID: 2604.07958

1️⃣ 一句话总结

arXiv ID: 2603.28064

1️⃣ 一句话总结

arXiv ID: 2603.18501

1️⃣ 一句话总结

arXiv ID: 2603.17651

1️⃣ 一句话总结

arXiv ID: 2603.15478

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.11019 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.20910 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.21472 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.15042 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13789 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07958 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28064 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.18501 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17651 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15478 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.11019

arXiv ID: 2605.20910

arXiv ID: 2605.21472

arXiv ID: 2605.15042

arXiv ID: 2604.13789

arXiv ID: 2604.07958

arXiv ID: 2603.28064

arXiv ID: 2603.18501

arXiv ID: 2603.17651

arXiv ID: 2603.15478