arXiv最新AI论文速览速学

🔍

标签: #aigc ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 365 最新: LoST: Level of Semantics Tokenization for 3D Shapes 03-19

arXiv ID: 2511.22475

arXiv 提交日期: 2025-11-27

model training machine learning aigc generative models adversarial training flow matching image generation one-step generation

对抗流模型 / Adversarial Flow Models

1️⃣ 一句话总结

这篇论文提出了一种结合对抗训练和流模型优点的全新生成模型，它既能像流模型一样稳定地学习确定性的数据映射，又能像对抗模型一样高效地实现一步或几步生成，在图像生成任务上取得了优异的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21579

arXiv 提交日期: 2025-11-26

multi-modal aigc video generation audio-video synchronization diffusion models cross-modal generation classifier-free guidance temporal alignment

和谐：通过跨任务协同实现音视频生成的协调统一 / Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

1️⃣ 一句话总结

这篇论文提出了一个名为Harmony的新框架，通过跨任务协同训练、高效的全局-局部解耦交互模块以及同步增强的引导技术，解决了音视频生成中难以保持精确同步的核心难题，显著提升了生成内容的真实感和同步质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20809

arXiv 提交日期: 2025-11-25

video generation aigc computer vision video composition layer-aware generation self-supervised learning foreground-background fusion affordance-aware composition

基于拆分与合并的分层感知视频合成 / Layer-Aware Video Composition via Split-then-Merge

1️⃣ 一句话总结

这篇论文提出了一个名为‘拆分与合并’的新框架，它通过将大量无标签视频自动拆分为前景和背景层，并让它们相互组合来学习动态物体与场景的交互，从而无需人工标注就能生成更真实、可控的视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20647

arXiv 提交日期: 2025-11-25

video generation aigc model training diverse generation determinantal point processes policy optimization text-to-video benchmark evaluation

基于行列式点过程引导策略优化的多样化视频生成 / Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization

1️⃣ 一句话总结

这项研究提出了一种名为DPP-GRPO的新方法，通过结合行列式点过程和群体相对策略优化技术，有效提升了文本生成视频模型的输出多样性，确保同一文本提示能生成多个在视觉外观、镜头运动和场景结构上各不相同的高质量视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20645

arXiv 提交日期: 2025-11-25

computer vision model training aigc diffusion transformers image generation pixel space text-to-image end-to-end training

PixelDiT：用于图像生成的像素扩散变换器 / PixelDiT: Pixel Diffusion Transformers for Image Generation

1️⃣ 一句话总结

这篇论文提出了一种名为PixelDiT的新型图像生成模型，它摒弃了传统两阶段流程中依赖的压缩编码器，直接在原始像素空间进行端到端训练，通过结合全局语义和局部细节的双层变换器设计，在保持图像精细纹理的同时，取得了比以往像素级生成模型更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20614

arXiv 提交日期: 2025-11-25

computer vision model evaluation aigc image consistency post-editing attention alignment reference-guided generation detail correction

一致性批判者：通过参考引导的注意力对齐来纠正生成图像中的不一致性 / The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment

1️⃣ 一句话总结

这篇论文提出了一个名为ImageCritic的后编辑方法，它通过分析模型的注意力机制并利用参考图像来检测和修正AI生成图像中的细节不一致问题，从而显著提升图像生成的质量和一致性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20549

arXiv 提交日期: 2025-11-25

model training aigc machine learning diffusion distillation reinforcement learning image generation fast sampling joint training

Flash-DMD：通过高效蒸馏与联合强化学习实现高保真少步图像生成 / Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为Flash-DMD的新框架，它通过一种高效的“时间步感知”蒸馏方法大幅降低了训练成本，并同时结合强化学习进行微调，从而稳定、快速地训练出能用极少步骤生成高质量图像的模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20462

arXiv 提交日期: 2025-11-25

video generation model training aigc normalizing flows autoregressive generation spatiotemporal modeling text-to-video video-to-video

STARFlow-V：基于标准化流的端到端视频生成模型 / STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flows

1️⃣ 一句话总结

这篇论文提出了一种名为STARFlow-V的新型视频生成模型，它利用标准化流技术实现了端到端的视频生成，在保证高视觉质量和时间一致性的同时，还能高效处理文本、图像到视频等多种生成任务，为视频生成领域提供了新的研究方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20415

arXiv 提交日期: 2025-11-25

computer vision multi-modal aigc 3d city generation language-driven generation aesthetic adaptation controllable assets interactive editing

MajutsuCity: 基于自然语言驱动的审美自适应3D城市生成框架 / MajutsuCity: Language-driven Aesthetic-adaptive City Generation with Controllable 3D Assets and Layouts

1️⃣ 一句话总结

MajutsuCity是一个通过自然语言指令驱动、支持审美自适应控制和对象级交互编辑的3D城市场景生成系统，通过四阶段流程实现了结构一致且风格多样的城市生成。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20211

arXiv 提交日期: 2025-11-25

computer vision model training aigc rgba generation image editing multi-task learning diffusion transformer alpha matting

OmniAlpha：统一多任务RGBA图像生成与编辑框架 / OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation

1️⃣ 一句话总结

OmniAlpha是首个基于序列到序列扩散变换器的统一多任务RGBA图像生成与编辑框架，通过创新的MSRoPE-BiL架构和AlphaLayers数据集，在21个任务上联合训练，实现了超越专用模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2511.22475

1️⃣ 一句话总结

arXiv ID: 2511.21579

1️⃣ 一句话总结

arXiv ID: 2511.20809

1️⃣ 一句话总结

arXiv ID: 2511.20647

1️⃣ 一句话总结

arXiv ID: 2511.20645

1️⃣ 一句话总结

arXiv ID: 2511.20614

1️⃣ 一句话总结

arXiv ID: 2511.20549

1️⃣ 一句话总结

arXiv ID: 2511.20462

1️⃣ 一句话总结

arXiv ID: 2511.20415

1️⃣ 一句话总结

arXiv ID: 2511.20211

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2511.22475 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.21579 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20809 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20647 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20645 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20614 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20549 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20462 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20415 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20211 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2511.22475

arXiv ID: 2511.21579

arXiv ID: 2511.20809

arXiv ID: 2511.20647

arXiv ID: 2511.20645

arXiv ID: 2511.20614

arXiv ID: 2511.20549

arXiv ID: 2511.20462

arXiv ID: 2511.20415

arXiv ID: 2511.20211