arXiv最新AI论文速览速学

🔍

标签: #diffusion models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: ViPO: Visual Preference Optimization at Scale 05-02

arXiv ID: 2604.05489

arXiv 提交日期: 2026-04-07

multi-modal aigc multi-agents text-to-video prompt refinement multi-agent systems benchmark diffusion models

SCMAPR：面向复杂场景文本生成视频的自校正多智能体提示词优化框架 / SCMAPR: Self-Correcting Multi-Agent Prompt Refinement for Complex-Scenario Text-to-Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为SCMAPR的智能框架，它通过多个分工协作的AI智能体，自动优化和改进用于生成视频的文字描述，特别擅长处理那些含义模糊、细节缺失的复杂场景描述，从而显著提升最终生成视频与文字描述的匹配度和整体质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.05730

arXiv 提交日期: 2026-04-07

computer vision model training aigc controllable image generation masked generation diffusion models vq-vae compositional generation

基于组合并行令牌预测的可控图像生成 / Controllable Image Generation with Composed Parallel Token Prediction

1️⃣ 一句话总结

这篇论文提出了一种新的可控图像生成方法，能够更精确地组合多个输入条件（如物体位置、关系或文本描述）来生成图像，不仅在效果上显著优于现有技术，而且生成速度更快，还能直接应用于已有的文本生成图像模型进行精细控制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.05727

arXiv 提交日期: 2026-04-07

computer vision model training machine learning diffusion models low-light enhancement image denoising signal attenuation single-stage training

用于低光图像增强与去噪的单阶段信号衰减扩散模型 / Single-Stage Signal Attenuation Diffusion Model for Low-Light Image Enhancement and Denoising

1️⃣ 一句话总结

这篇论文提出了一种名为SADM的新型扩散模型，它将信号衰减机制融入扩散过程，能够在单一阶段同时提升低光图像的亮度和抑制噪声，从而避免了现有方法需要多阶段或额外校正模块的复杂设计，实现了更优且高效的图像修复效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06113

arXiv 提交日期: 2026-04-07

computer vision model training multi-modal 3d scene generation diffusion models voxel representation driving scenes semantic conditioning

SEM-ROVER：用于大规模驾驶场景生成的语义体素引导扩散模型 / SEM-ROVER: Semantic Voxel-Guided Diffusion for Large-Scale Driving Scene Generation

1️⃣ 一句话总结

这篇论文提出了一种新的三维生成框架，通过一个基于语义条件扩散模型的方法，能够高效地生成大规模、多视角一致且可渲染成逼真图像的户外驾驶场景，而无需对每个场景进行单独优化。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04575

arXiv 提交日期: 2026-04-06

model training model evaluation aigc diffusion models concept unlearning text-to-image compositional generation evaluation

擦除还是侵蚀？评估文本到图像扩散模型在概念遗忘中的组合能力退化 / Erasure or Erosion? Evaluating Compositional Degradation in Unlearned Text-To-Image Diffusion Models

1️⃣ 一句话总结

这篇论文通过系统实验发现，当前从大模型中‘遗忘’特定概念（如裸体）的技术，普遍存在一个两难困境：要么能有效擦除概念但严重损害模型组合生成图像的能力，要么能保持组合能力但擦除效果不佳。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04406

arXiv 提交日期: 2026-04-06

computer vision 3d generation model training 3d scene completion single-view reconstruction coarse-to-fine generation diffusion models dataset

3D-Fixer：基于单张图像的3D场景从粗到精原位补全方法 / 3D-Fixer: Coarse-to-Fine In-place Completion for 3D Scenes from a Single Image

1️⃣ 一句话总结

这篇论文提出了一种名为3D-Fixer的新方法，它能够仅凭一张图片，就快速且高质量地生成完整的3D场景模型，其核心创新在于利用图片中已可见的物体碎片作为空间锚点，通过从粗到精的生成策略来补全被遮挡的部分，从而在保证生成速度的同时，大幅提升了复杂场景的构建精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28763

arXiv 提交日期: 2026-03-30

computer vision model training data human pose estimation diffusion models synthetic data generation 3d mesh annotation dataset creation

PoseDreamer：基于扩散模型的可扩展且逼真的人体数据生成流程 / PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

1️⃣ 一句话总结

这篇论文提出了一个名为PoseDreamer的新流程，它利用先进的扩散模型自动生成大量既逼真又带有精确3D人体姿态标注的合成图像数据，从而有效解决了3D人体姿态估计任务中真实数据标注困难和传统合成数据不够逼真的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28114

arXiv 提交日期: 2026-03-30

computer vision model training aigc diffusion models cross-attention frequency modulation training-free control image generation

注意力频率调制：扩散交叉注意力的免训练频谱调制 / Attention Frequency Modulation: Training-Free Spectral Modulation of Diffusion Cross-Attention

1️⃣ 一句话总结

这篇论文提出了一种名为‘注意力频率调制’的新方法，它通过分析并调整AI文生图模型中‘注意力’信号在不同频率上的分布，无需重新训练就能精细地控制生成图像的细节风格和构图，比如让画面更聚焦于整体轮廓或局部细节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28251

arXiv 提交日期: 2026-03-30

computer vision multi-modal agents visual attention prediction diffusion models llm-enhanced reasoning intelligent vehicles scene understanding

DiffAttn：基于扩散模型和LLM增强语义推理的驾驶员视觉注意力预测 / DiffAttn: Diffusion-Based Drivers' Visual Attention Prediction with LLM-Enhanced Semantic Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为DiffAttn的新框架，它利用扩散模型来预测驾驶员在驾驶时会看向哪里，并通过结合大型语言模型来增强对道路安全关键信息的理解，从而在多个测试中取得了当前最好的预测效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28718

arXiv 提交日期: 2026-03-30

model training reinforcement learning machine learning credit assignment flow matching models diffusion models policy gradient stepwise reward

流匹配模型上GRPO的逐步信用分配 / Stepwise Credit Assignment for GRPO on Flow-Matching Models

1️⃣ 一句话总结

这篇论文提出了一种名为Stepwise-Flow-GRPO的新方法，它通过分析图像生成过程中不同步骤（如早期构图和后期细节处理）对最终结果的不同贡献，为每一步分配合适的“功劳”，从而解决了原有方法对所有步骤一视同仁导致的效率低下问题，使得AI模型能更快、更高效地学习如何生成高质量的图像。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.05489

1️⃣ 一句话总结

arXiv ID: 2604.05730

1️⃣ 一句话总结

arXiv ID: 2604.05727

1️⃣ 一句话总结

arXiv ID: 2604.06113

1️⃣ 一句话总结

arXiv ID: 2604.04575

1️⃣ 一句话总结

arXiv ID: 2604.04406

1️⃣ 一句话总结

arXiv ID: 2603.28763

1️⃣ 一句话总结

arXiv ID: 2603.28114

1️⃣ 一句话总结

arXiv ID: 2603.28251

1️⃣ 一句话总结

arXiv ID: 2603.28718

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.05489 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.05730 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.05727 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06113 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04575 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04406 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28763 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28114 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28251 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28718 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.05489

arXiv ID: 2604.05730

arXiv ID: 2604.05727

arXiv ID: 2604.06113

arXiv ID: 2604.04575

arXiv ID: 2604.04406

arXiv ID: 2603.28763

arXiv ID: 2603.28114

arXiv ID: 2603.28251

arXiv ID: 2603.28718