arXiv最新AI论文速览速学

📄

2512.04025

🤖 系统

12-05 15:02

video model training multi-modal

sparse attention video understanding video generation efficient transformers pyramid pooling

PSA：用于高效视频理解与生成的金字塔稀疏注意力机制 / PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

1️⃣ 一句话总结

这篇论文提出了一种名为金字塔稀疏注意力的新方法，它通过多级池化来精细地保留关键信息，从而在显著降低计算成本的同时，有效减少了传统稀疏注意力机制在高稀疏度下的信息损失，使其在视频理解和生成任务中都能实现更优的效率与质量平衡。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.05115

🤖 系统

12-05 15:01

computer vision video generation multi-modal

4d video rendering camera control illumination control dynamic point clouds video relighting

Light-X：具备相机与光照联合控制的生成式4D视频渲染框架 / Light-X: Generative 4D Video Rendering with Camera and Illumination Control

1️⃣ 一句话总结

这篇论文提出了一个名为Light-X的智能视频生成系统，它能让用户像导演一样，在保持画面流畅连贯的前提下，同时自由控制拍摄镜头的移动角度和场景的灯光效果，从而创造出逼真且动态变化的视频内容。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.04678

🤖 系统

12-05 14:52

video generation model training aigc

streaming video distribution matching diffusion distillation motion dynamics attention mechanism

奖励强制：通过奖励分布匹配蒸馏实现高效流式视频生成 / Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

1️⃣ 一句话总结

这篇论文提出了一种名为‘奖励强制’的新方法，通过引入能融合长期上下文与近期动态的EMA-Sink令牌，以及利用视觉语言模型奖励来优先学习动态内容的分布匹配蒸馏技术，有效解决了现有流式视频生成方法中初始帧被过度复制、运动动态不足的问题，从而在保持长时一致性的同时，显著提升了生成视频的运动质量和生成效率。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.05103

🤖 系统

12-05 14:48

video generation multi-modal model training

text-to-video interleaved generation reasoning flow matching mixture-of-transformers

TV2TV：一种用于交错式语言与视频生成的统一框架 / TV2TV: A Unified Framework for Interleaved Language and Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为TV2TV的新框架，它通过让AI模型在生成视频过程中穿插‘用文字思考’的步骤，来提升复杂视频的生成质量和可控性，使其能更好地理解和执行用户指令。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.04677

🤖 系统

12-05 14:34

video generation aigc systems

real-time avatar diffusion models pipeline parallelism streaming generation infinite-length video

实时数字人：支持无限时长流式生成、由实时音频驱动的数字人生成 / Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

1️⃣ 一句话总结

这篇论文提出了一个名为Live Avatar的软硬件协同设计框架，它通过创新的并行计算和缓存机制，首次实现了使用超大规模扩散模型进行高保真、低延迟、无限时长的实时数字人视频流式生成。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.05076

🤖 系统

12-05 14:23

video generation aigc model training

4d control camera pose decoupling video diffusion temporal control dataset curation

子弹时间：用于视频生成的时空解耦控制框架 / BulletTime: Decoupled Control of Time and Camera Pose for Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为‘子弹时间’的新框架，它能够像独立调节时间和摄像机视角一样，分别精确控制生成视频中场景的动态变化和拍摄角度，从而解决了现有视频生成模型难以实现精细时空控制的问题。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.04515

🤖 系统

12-05 14:20

video generation multi-modal model training

egocentric video long-context diffusion memory management temporal consistency world models

EgoLCD：基于长上下文扩散模型的第一人称视角视频生成 / EgoLCD: Egocentric Video Generation with Long Context Diffusion

1️⃣ 一句话总结

这篇论文提出了一种名为EgoLCD的新方法，通过巧妙地管理长期和短期记忆来生成连贯、高质量的第一人称视角长视频，有效解决了现有模型在生成过程中容易出现的画面内容漂移和遗忘问题。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.02622

🤖 系统

12-04 15:11

video generation model evaluation benchmark

rule-based reasoning video generation benchmark cognitive rules gpt evaluation vision foundation models

RULER-Bench：探究面向视觉基础智能的下一代视频生成模型的规则推理能力 / RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence

1️⃣ 一句话总结

这篇论文提出了一个名为RULER-Bench的新基准测试，专门用于系统评估视频生成模型是否能够理解和遵循物理、逻辑等各类规则进行推理，结果发现当前最先进的模型在此方面仍有很大不足，为推动视频模型向具备更强推理能力的视觉基础智能发展提供了重要工具和见解。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.03013

🤖 系统

12-04 14:52

video generation model training multi-modal

portrait video editing in-context learning lora temporal synchronization diffusion models

基于上下文同步LoRA的人像视频编辑 / In-Context Sync-LoRA for Portrait Video Editing

1️⃣ 一句话总结

这篇论文提出了一种名为Sync-LoRA的新方法，它通过使用少量经过严格筛选的同步人像视频进行训练，能够在对人像视频进行外观、表情或背景等多样化编辑的同时，精确保持原始视频中人物的动作轨迹和身份一致性。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.04040

🤖 系统

12-04 14:28

video generation agents systems

interactive world model long-horizon memory autoregressive video diffusion real-time generation 3d consistency

RELIC：具备长时记忆的交互式视频世界模型 / RELIC: Interactive Video World Model with Long-Horizon Memory

1️⃣ 一句话总结

这篇论文提出了一个名为RELIC的交互式视频生成模型，它通过一种新颖的压缩记忆机制，能够实时、长时地根据用户指令生成具有空间一致性的动态场景，解决了以往模型难以兼顾实时性、长时记忆和精确控制三大挑战的问题。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2512.04025

1️⃣ 一句话总结

2512.05115

1️⃣ 一句话总结

2512.04678

1️⃣ 一句话总结

2512.05103

1️⃣ 一句话总结

2512.04677

1️⃣ 一句话总结

2512.05076

1️⃣ 一句话总结

2512.04515

1️⃣ 一句话总结

2512.02622

1️⃣ 一句话总结

2512.03013

1️⃣ 一句话总结

2512.04040

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2512.04025 📝

1️⃣ 一句话总结

2512.05115 📝

1️⃣ 一句话总结

2512.04678 📝

1️⃣ 一句话总结

2512.05103 📝

1️⃣ 一句话总结

2512.04677 📝

1️⃣ 一句话总结

2512.05076 📝

1️⃣ 一句话总结

2512.04515 📝

1️⃣ 一句话总结

2512.02622 📝

1️⃣ 一句话总结

2512.03013 📝

1️⃣ 一句话总结

2512.04040 📝

1️⃣ 一句话总结

获取最新论文摘要

2512.04025

2512.05115

2512.04678

2512.05103

2512.04677

2512.05076

2512.04515

2512.02622

2512.03013

2512.04040