arXiv最新AI论文速览速学

🔍

标签: #diffusion model ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: Policy-as-Data: Learning Generalizable HOI Diffusion Models from Simulated Physics 06-23

arXiv ID: 2606.22806

arXiv 提交日期: 2026-06-22

computer vision reinforcement learning generation human-object interaction physics simulation data augmentation motion generation diffusion model

策略即数据：从物理仿真中学习可泛化的人-物交互扩散模型 / Policy-as-Data: Learning Generalizable HOI Diffusion Models from Simulated Physics

1️⃣ 一句话总结

本文提出了一种新方法，通过物理仿真器中的强化学习策略生成大量高质量的人-物交互数据，并训练扩散模型，从而解决了真实数据稀缺导致的泛化性差和物理不一致问题，使生成的交互动作能适应新物体并保持长期真实感。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.23362

arXiv 提交日期: 2026-06-22

machine learning data model training backdoor attack diffusion model trigger optimization poison rate stealthiness

TooBad：基于超低投毒率和不可察觉触发器的后门扩散模型 / TooBad: Backdoor Diffusion Models with Ultra-Low Poison Rate and Imperceptible Trigger

1️⃣ 一句话总结

本文提出了一种针对扩散模型的新型后门攻击框架TooBad，通过优化触发器设计，仅需极低比例（0.5%）的恶意训练数据，就能在不影响模型正常生成能力的前提下，高效植入后门，且能轻松绕过现有防御手段，揭示了扩散模型面临的新型安全威胁。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.22905

arXiv 提交日期: 2026-06-22

video generation multi-modal agents real-time streaming avatar generation visual consistency intent-aware diffusion model

交互式虚拟人：面向实时流式视频生成的一致性与意图感知虚拟人 / InteractiveAvatar: Real-Time Streaming Video Generation for Consistent and Intent-Aware Avatars

1️⃣ 一句话总结

本文提出了一种名为InteractiveAvatar的实时流式视频生成框架，通过自回归蒸馏实现无限时长生成，并引入长-短视觉记忆机制来保持画面连续性和一致性，同时借助推理-反应模块让虚拟人能够理解用户意图并做出相应的语音和动作回应，从而在复杂交互场景中生成既稳定又智能的虚拟形象。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.23682

arXiv 提交日期: 2026-06-22

computer vision model training systems diffusion model token dropping reference-based generation inference efficiency image editing

保留要点：通过令牌丢弃实现高效的参考条件生成 / Keep The Essentials: Efficient Reference Conditioned Generation via Token Dropping

1️⃣ 一句话总结

本文提出一种名为Sparse Context的方法，通过在推理时丢弃大部分参考图像的冗余令牌（token），并微调模型以适应随机丢失模式，在不降低生成质量的前提下，将多参考图像生成速度提升4倍、单参考生成速度提升2倍。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.13376

arXiv 提交日期: 2026-06-11

computer vision video generation multi-modal panoramic gaussian scaffold real-time rendering 3d scene generation diffusion model interactive navigation

MoVerse：基于全景高斯支架的实时视频世界建模 / MoVerse: Real-Time Video World Modeling with Panoramic Gaussian Scaffold

1️⃣ 一句话总结

该论文提出了一种仅凭单张窄视野照片就能快速生成360度全景交互场景的实时视频世界模型，通过先补全全景图、再构建可渲染的3D高斯记忆、最后用高效的因果视频生成器实时渲染用户操控的连续视频，实现了在普通显卡上以8帧/秒流畅浏览虚拟世界。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.13382

arXiv 提交日期: 2026-06-11

computer vision aigc font generation few-shot learning diffusion model conditional generation

SmartFont：用于少样本字体生成的动态条件分配方法 / SmartFont: Dynamic Condition Allocation for Few-Shot Font Generation

1️⃣ 一句话总结

本文提出了一种名为SmartFont的扩散模型框架，通过智能地结合全局结构生成和局部细节校正，在仅需要少量参考样本的情况下，即可生成既完整又富有风格细节的新字体。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.11019

arXiv 提交日期: 2026-06-09

machine learning robotics model training diffusion model motion planning autonomous driving temporal consistency joint denoising

扩散驱动规划器：基于时序退火历史信息与依赖时间引导的自动驾驶规划方法 / Diffusion Forcing Planner: History-Annealed Planning with Time-Dependent Guidance for Autonomous Driving

1️⃣ 一句话总结

本文提出了一种名为“扩散驱动规划器”的自动驾驶运动规划新方法，通过将完整轨迹分为历史、当前和未来三部分并分别施加不同程度的噪声，再利用可控的历史信息退火引导生成连续、稳定且安全的未来行驶轨迹，有效解决了传统规划器因帧间微小差异累积导致的不稳定问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.09608

arXiv 提交日期: 2026-06-08

computer vision model training aigc super-resolution diffusion model upsampling tiled diffusion gans

TUDSR：双重升采样扩散模型用于更高分辨率的超分辨率重建 / TUDSR: Twice Upsampling-Diffusion for Higher Super-Resolution

1️⃣ 一句话总结

针对现有扩散模型在处理超高分辨率（如2048×2048）图像超分辨率时质量差的问题，本文提出一种基于两阶段训练的双重升采样扩散框架TUDSR，通过先用低分辨率训练再用循环分块策略在高分辨率上微调，在不增加硬件负担的情况下显著提升了图像质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.04945

arXiv 提交日期: 2026-06-03

llm model training model evaluation diffusion model post-training quantization low-bit quantization attention compensation efficient deployment

STaR-Quant：面向扩散大语言模型的状态-时间一致后训练量化方法 / STaR-Quant: State-Time Consistent Post-Training Quantization for Diffusion Large Language Models

1️⃣ 一句话总结

本文提出了一种名为STaR-Quant的高效量化方法，通过分别处理掩码与未掩码 token 的不同激活分布，并补偿每一步去噪过程中累积的量化误差，从而显著压缩扩散大语言模型的计算和存储开销，在不牺牲性能的前提下实现近1.7倍的加速和3.1倍以上的内存节省。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.05073

arXiv 提交日期: 2026-06-03

machine learning data missing value imputation diffusion model uncertainty-aware tabular data selective imputation

学会什么不该填补：一个面向有意义缺失的感知不确定性扩散框架 / Learning What Not to Impute: An Uncertainty-Aware Diffusion Framework for Meaningful Missingness

1️⃣ 一句话总结

这篇论文提出了一种名为Diff-Joint的扩散模型框架，能够区分数据中“有意义缺失”和“观测缺失”两种类型，并智能地决定哪些空缺应该被填补、哪些应保持原样，从而在提高填补精度的同时保留数据背后的语义信息。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.22806

1️⃣ 一句话总结

arXiv ID: 2606.23362

1️⃣ 一句话总结

arXiv ID: 2606.22905

1️⃣ 一句话总结

arXiv ID: 2606.23682

1️⃣ 一句话总结

arXiv ID: 2606.13376

1️⃣ 一句话总结

arXiv ID: 2606.13382

1️⃣ 一句话总结

arXiv ID: 2606.11019

1️⃣ 一句话总结

arXiv ID: 2606.09608

1️⃣ 一句话总结

arXiv ID: 2606.04945

1️⃣ 一句话总结

arXiv ID: 2606.05073

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.22806 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.23362 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.22905 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.23682 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.13376 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.13382 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.11019 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.09608 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.04945 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.05073 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.22806

arXiv ID: 2606.23362

arXiv ID: 2606.22905

arXiv ID: 2606.23682

arXiv ID: 2606.13376

arXiv ID: 2606.13382

arXiv ID: 2606.11019

arXiv ID: 2606.09608

arXiv ID: 2606.04945

arXiv ID: 2606.05073