arXiv最新AI论文速览速学

🔍

标签: #diffusion models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: ViPO: Visual Preference Optimization at Scale 05-02

arXiv ID: 2603.27666

arXiv 提交日期: 2026-03-29

computer vision model training systems controllable generation linear attention diffusion models on-device generation gated conditioning

无需多模态注意力的门控条件注入：迈向可控的线性注意力Transformer / Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers

1️⃣ 一句话总结

这篇论文提出了一种专门为高效线性注意力模型设计的新框架，通过一个统一的门控条件模块，成功解决了现有方法在整合多种控制信号时灵活性不足或训练缓慢的问题，从而在保护用户隐私的边缘设备上实现了高质量、可控的图像生成。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.27756

arXiv 提交日期: 2026-03-29

robotics agents model training humanoid control diffusion models motion synthesis robust control physics-based simulation

赫拉克勒斯：为通用人形机器人控制搭建精确跟踪与生成式合成之间的桥梁 / Heracles: Bridging Precise Tracking and Generative Synthesis for General Humanoid Control

1️⃣ 一句话总结

这篇论文提出了一种名为Heracles的新型控制中间件，它利用状态条件扩散模型，让人形机器人既能精确执行指令动作，又能在遭遇严重干扰时像人类一样自然地生成恢复动作，从而显著提升了机器人的鲁棒性和适应性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.27817

arXiv 提交日期: 2026-03-29

computer vision multi-modal agents image anonymization privacy preservation multi-agent systems personally identifiable information diffusion models

迈向基于多智能体推理的上下文感知图像匿名化 / Towards Context-Aware Image Anonymization with Multi-Agent Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为CAIAMAR的新型智能体框架，它能够根据图像中物体所处的空间环境（如私人或公共区域）来智能判断并隐藏人脸等个人身份信息，在有效保护隐私的同时，比现有方法更好地保持了图像质量，并且完全在本地运行以满足数据安全法规要求。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.27206

arXiv 提交日期: 2026-03-28

computer vision model training data semantic segmentation few-shot learning synthetic data diffusion models pseudo-labeling

创造即所得：在广义少样本语义分割中利用合成图像实现真实性能提升 / Make It Up: Fake Images, Real Gains in Generalized Few-shot Semantic Segmentation

1️⃣ 一句话总结

这篇论文提出了一个名为Syn4Seg的新方法，它通过巧妙地合成大量新类别图像并结合多阶段伪标签优化技术，有效解决了广义少样本语义分割中因新类别样本稀缺和标注质量差导致的性能瓶颈问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25728

arXiv 提交日期: 2026-03-26

computer vision aigc model training facial expression editing diffusion models disentanglement continuous control identity preservation

PixelSmile：迈向细粒度面部表情编辑 / PixelSmile: Toward Fine-Grained Facial Expression Editing

1️⃣ 一句话总结

这篇论文提出了一个名为PixelSmile的扩散模型框架，通过构建新数据集和采用对称联合训练等方法，解决了细粒度面部表情编辑中语义混淆的难题，实现了对表情强度连续、精确且不改变人物身份的线性控制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25734

arXiv 提交日期: 2026-03-26

computer vision model training multi-modal human-object interaction diffusion models contact-aware guidance asynchronous denoising video generation

无需分类器引导的人-物交互动画生成 / Unleashing Guidance Without Classifiers for Human-Object Interaction Animation

1️⃣ 一句话总结

这篇论文提出了一种名为LIGHT的新方法，它通过控制去噪速度让AI模型自己学会生成逼真的人与物体互动动画，不再需要依赖人工设计的接触规则或额外分类器，从而能更好地处理各种形状的物体和复杂的互动任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.24594

arXiv 提交日期: 2026-03-25

model training machine learning theory diffusion models sampling speedup numerical methods sde solvers multilevel monte carlo

基于多级欧拉-丸山方法的扩散模型多项式加速 / Polynomial Speedup in Diffusion Models with the Multilevel Euler-Maruyama Method

1️⃣ 一句话总结

这篇论文提出了一种名为‘多级欧拉-丸山’的新采样方法，通过巧妙地组合不同精度和成本的神经网络模型来近似计算，从而在图像生成等扩散模型任务中实现了显著的计算加速，其核心贡献是能以近似于单次调用最大模型的成本，获得原本需要多次调用才能达到的采样精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.24541

arXiv 提交日期: 2026-03-25

multi-modal computer vision aigc generative world models augmented reality diffusion models selective correction video generation

SEGAR：面向生成式增强现实的选择性增强框架 / SEGAR: Selective Enhancement for Generative Augmented Reality

1️⃣ 一句话总结

这篇论文提出了一个名为SEGAR的初步框架，它结合了扩散世界模型和选择性校正步骤，能够提前生成并缓存带有特定区域视觉编辑的未来增强现实画面，同时确保安全关键区域与真实世界保持一致，从而为实现高效、可靠的生成式增强现实应用迈出了早期的一步。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23874

arXiv 提交日期: 2026-03-25

computer vision agents systems crowd simulation diffusion models pedestrian trajectories environmental conditioning social interaction

EnvSocial-Diff：一种融合环境条件与个体-群体交互的扩散式人群模拟模型 / EnvSocial-Diff: A Diffusion-Based Crowd Simulation Model with Environmental Conditioning and Individual-Group Interaction

1️⃣ 一句话总结

这篇论文提出了一种新的人群轨迹模拟模型，它通过显式地编码环境信息（如障碍物和光线）并同时考虑个体间和群体间的社交互动，从而生成更真实、更符合物理场景的行人运动轨迹。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23499

arXiv 提交日期: 2026-03-24

computer vision model training machine learning optical flow diffusion models video degradation corruption robustness feature fusion

DA-Flow：基于扩散模型的退化感知光流估计 / DA-Flow: Degradation-Aware Optical Flow Estimation with Diffusion Models

1️⃣ 一句话总结

这篇论文提出了一种名为DA-Flow的新方法，它通过结合扩散模型对图像退化的感知能力和卷积网络的时间信息处理能力，有效提升了光流估计模型在处理模糊、噪声等真实世界退化视频时的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.27666

1️⃣ 一句话总结

arXiv ID: 2603.27756

1️⃣ 一句话总结

arXiv ID: 2603.27817

1️⃣ 一句话总结

arXiv ID: 2603.27206

1️⃣ 一句话总结

arXiv ID: 2603.25728

1️⃣ 一句话总结

arXiv ID: 2603.25734

1️⃣ 一句话总结

arXiv ID: 2603.24594

1️⃣ 一句话总结

arXiv ID: 2603.24541

1️⃣ 一句话总结

arXiv ID: 2603.23874

1️⃣ 一句话总结

arXiv ID: 2603.23499

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.27666 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.27756 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.27817 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.27206 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25728 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25734 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.24594 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.24541 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23874 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23499 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.27666

arXiv ID: 2603.27756

arXiv ID: 2603.27817

arXiv ID: 2603.27206

arXiv ID: 2603.25728

arXiv ID: 2603.25734

arXiv ID: 2603.24594

arXiv ID: 2603.24541

arXiv ID: 2603.23874

arXiv ID: 2603.23499