arXiv最新AI论文速览速学

📄

2512.02492

🤖 系统

12-03 15:02

video generation multi-modal aigc

music-driven video generation camera motion control diffusion transformer long-video synthesis audio-visual synchronization

YingVideo-MV：音乐驱动的多阶段视频生成 / YingVideo-MV: Music-Driven Multi-Stage Video Generation

1️⃣ 一句话总结

这篇论文提出了首个音乐驱动的长视频生成框架YingVideo-MV，它通过分析音乐语义、规划镜头、并控制摄像机运动，能自动合成出与音乐节奏和情感高度同步的高质量音乐表演视频。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.22699

🤖 系统

12-01 15:41

model training computer vision aigc

image generation diffusion transformer efficient training model distillation open-source model

Z-Image：一种基于单流扩散Transformer的高效图像生成基础模型 / Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

1️⃣ 一句话总结

这篇论文提出了一个名为Z-Image的高效开源图像生成模型，它通过创新的单流扩散Transformer架构和全流程优化，仅用6B参数就达到了媲美顶级商业模型的性能，大幅降低了计算成本和硬件门槛。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.23475

🤖 系统

12-01 14:42

video generation multi-modal model training

talking head diffusion transformer multi-person generation audio-driven interactivity

AnyTalker：通过交互性优化实现可扩展的多人物对话视频生成 / AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement

1️⃣ 一句话总结

这篇论文提出了一个名为AnyTalker的新框架，它能够利用低成本、易获取的单人视频数据，高效生成多个不同人物同步说话、互动自然的对话视频，解决了以往方法在数据收集和多人互动协调上的难题。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2508.20088

🤖 系统

12-01 14:17

llm audio multi-modal

audio generation long-form narrative text-to-audio llm planning diffusion transformer

AudioStory：一个用于生成连贯长叙事音频的端到端统一框架 / AudioStory: Generating Long-Form Narrative Audio with Large Language Models

1️⃣ 一句话总结

本文提出了AudioStory，一个将大型语言模型与文本到音频生成系统集成的端到端框架，旨在通过交错推理生成和渐进式训练策略，解决现有模型在生成时间连贯、结构化的长叙事音频（如有声书、播客）方面的不足。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.20211

🤖 系统

11-30 23:28

computer vision model training aigc

rgba generation image editing multi-task learning diffusion transformer alpha matting

OmniAlpha：统一多任务RGBA图像生成与编辑框架 / OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation

1️⃣ 一句话总结

OmniAlpha是首个基于序列到序列扩散变换器的统一多任务RGBA图像生成与编辑框架，通过创新的MSRoPE-BiL架构和AlphaLayers数据集，在21个任务上联合训练，实现了超越专用模型的性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.16175

🤖 系统

11-30 17:56

multi-modal robotics model training

vision-language-action visual foresight diffusion transformer robot manipulation instruction following

📄 论文总结

Mantis：一种具有解耦视觉预见能力的多功能视觉-语言-动作模型 / Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

1️⃣ 一句话总结

这篇论文提出了一个名为Mantis的新型视觉-语言-动作模型，它通过解耦视觉预见模块来减轻主干网络的负担，从而在保持强大语言理解和推理能力的同时，显著提升了机器人任务执行的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.26794

🤖 系统

11-30 17:47

model training model evaluation multi-modal

motion generation video generation diffusion transformer benchmark data synthesis

📄 论文总结

可泛化运动生成的探索：数据、模型与评估 / The Quest for Generalizable Motion Generation: Data, Model, and Evaluation

1️⃣ 一句话总结

该论文通过借鉴视频生成领域的知识，构建了一个包含大规模数据集、统一生成模型和分层评估基准的完整框架，显著提升了3D人体运动生成模型的泛化能力和生成质量。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.08377

🤖 系统

11-30 17:38

video generation multi-modal aigc

video synthesis multimodal instruction video editing diffusion transformer unified modeling

📄 论文总结

UniVideo：视频的统一理解、生成与编辑 / UniVideo: Unified Understanding, Generation, and Editing for Videos

1️⃣ 一句话总结

这篇论文提出了一个名为UniVideo的统一视频处理框架，能够通过单一模型同时完成视频生成、编辑等多种任务，并在多项测试中达到或超越了专门模型的性能，还具备任务组合和跨任务泛化的能力。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2508.18633

🤖 系统

11-30 17:24

computer vision video generation model training

video object removal side effects video inpainting synthetic data diffusion transformer

📄 论文总结

ROSE：消除视频中物体的附带效应 / ROSE: Remove Objects with Side Effects in Videos

1️⃣ 一句话总结

这篇论文提出了一个名为ROSE的视频对象移除框架，它不仅能够去除物体本身，还能有效消除物体在环境中产生的阴影、反光等五种常见附带效应，通过合成数据和专门设计的模型在多种场景下实现了优于现有方法的性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2512.02492

1️⃣ 一句话总结

2511.22699

1️⃣ 一句话总结

2511.23475

1️⃣ 一句话总结

2508.20088

1️⃣ 一句话总结

2511.20211

1️⃣ 一句话总结

2511.16175

📄 论文总结

1️⃣ 一句话总结

2510.26794

📄 论文总结

1️⃣ 一句话总结

2510.08377

📄 论文总结

1️⃣ 一句话总结

2508.18633

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2512.02492 📝

1️⃣ 一句话总结

2511.22699 📝

1️⃣ 一句话总结

2511.23475 📝

1️⃣ 一句话总结

2508.20088 📝

1️⃣ 一句话总结

2511.20211 📝

1️⃣ 一句话总结

2511.16175 📝

📄 论文总结

1️⃣ 一句话总结

2510.26794 📝

📄 论文总结

1️⃣ 一句话总结

2510.08377 📝

📄 论文总结

1️⃣ 一句话总结

2508.18633 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2512.02492

2511.22699

2511.23475

2508.20088

2511.20211

2511.16175

2510.26794

2510.08377

2508.18633