arXiv最新AI论文速览速学

🔍

标签: #diffusion models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: ViPO: Visual Preference Optimization at Scale 05-02

arXiv ID: 2604.11470

arXiv 提交日期: 2026-04-13

computer vision model training aigc image super-resolution diffusion models degradation-aware structure preservation real-world restoration

面向真实世界图像超分辨率的退化感知与结构保持扩散方法 / Degradation-Aware and Structure-Preserving Diffusion for Real-World Image Super-Resolution

1️⃣ 一句话总结

这篇论文提出了一种新的扩散模型框架，通过感知图像退化信息和在训练中保护图像结构细节，有效提升了真实世界模糊图像的超分辨率修复效果，使其结果更清晰、更真实。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.10954

arXiv 提交日期: 2026-04-13

computer vision model training model evaluation image editing diffusion models bounding box guidance dataset benchmark

FineEdit：基于边界框引导的细粒度图像编辑 / FineEdit: Fine-Grained Image Edit with Bounding Box Guidance

1️⃣ 一句话总结

这篇论文提出了一种名为FineEdit的新方法，通过让用户在图片上画框来精确指定要修改的区域，从而在智能修图时既能准确改变目标物体，又能完美保持图片背景不变。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08301

arXiv 提交日期: 2026-04-09

computer vision model training data anomaly synthesis diffusion models few-shot learning industrial inspection image generation

GroundingAnomaly：基于空间定位扩散的少样本异常合成 / GroundingAnomaly: Spatially-Grounded Diffusion for Few-Shot Anomaly Synthesis

1️⃣ 一句话总结

这篇论文提出了一种名为GroundingAnomaly的新方法，它利用像素级语义图精准控制异常生成的位置，并通过门控注意力机制高效利用少量样本，从而合成高质量的异常图像，显著提升了工业质检中异常检测与分割的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08063

arXiv 提交日期: 2026-04-09

medical multi-modal computer vision eeg decoding visual reconstruction diffusion models multimodal llm cognitive neuroscience

EEG2Vision：基于多模态脑电的认知神经科学二维视觉重建框架 / EEG2Vision: A Multimodal EEG-Based Framework for 2D Visual Reconstruction in Cognitive Neuroscience

1️⃣ 一句话总结

这篇论文提出了一个名为EEG2Vision的模块化框架，能够利用低分辨率、少电极的脑电信号重建人脑看到的图像，并通过一个基于提示的后处理增强机制显著提升图像质量，为在实验室外实现实时‘脑到图像’应用提供了可能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08068

arXiv 提交日期: 2026-04-09

medical multi-modal computer vision eeg decoding 3d reconstruction multimodal reasoning brain-computer interface diffusion models

Brain3D：通过多模态推理实现视觉表征的脑电图到三维解码 / Brain3D: EEG-to-3D Decoding of Visual Representations via Multimodal Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为Brain3D的新方法，它通过将脑电信号先转化为图像，再借助大语言模型提取三维描述，最终生成三维模型，从而首次实现了从人脑活动直接解码并重建出三维视觉内容。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06989

arXiv 提交日期: 2026-04-08

computer vision aigc model training image generation diffusion models personalization photomosaic structure alignment

结构对齐与个性化扩散的生成式照片马赛克 / Generative Phomosaic with Structure-Aligned and Personalized Diffusion

1️⃣ 一句话总结

这篇论文提出了一种全新的生成式照片马赛克方法，它利用扩散模型根据参考图像自动生成每一块小图，从而在保证整体结构一致性的同时，创造出语义丰富且风格统一的马赛克作品，克服了传统方法依赖海量图库和简单颜色匹配的局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06568

arXiv 提交日期: 2026-04-08

computer vision model training aigc image compression diffusion models quantization noise high fidelity frequency-domain filtering

一种用于高保真图像压缩的噪声约束扩散（NC-Diffusion）框架 / A Noise Constrained Diffusion (NC-Diffusion) Framework for High Fidelity Image Compression

1️⃣ 一句话总结

这篇论文提出了一种新的图像压缩方法，它通过巧妙地将压缩过程中产生的量化噪声与扩散模型的噪声过程对齐，并引入自适应滤波和增强技术，从而在显著提升压缩图像质量的同时，保持了较高的处理效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07159

arXiv 提交日期: 2026-04-08

financial machine learning model training time series generation data augmentation stochastic volatility diffusion models financial forecasting

SBBTS：一个用于合成金融时间序列的统一薛定谔-巴斯框架 / SBBTS: A Unified Schrödinger-Bass Framework for Synthetic Financial Time Series

1️⃣ 一句话总结

这篇论文提出了一个名为SBBTS的新方法，它能同时模拟金融数据的变化趋势和波动性，生成更逼真的合成时间序列，从而有效提升金融预测模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07273

arXiv 提交日期: 2026-04-08

computer vision multi-modal model training 3d avatar generation diffusion models video-to-3d avatar animation generative ai

GenLCA：基于扩散模型从真实世界视频生成全身虚拟化身 / GenLCA: 3D Diffusion for Full-Body Avatars from In-the-Wild Videos

1️⃣ 一句话总结

这篇论文提出了一个名为GenLCA的新方法，它能够利用海量的普通网络视频，训练出一个高质量的3D扩散模型，从而仅凭文字或图片就能生成并编辑逼真且能流畅动画的全身虚拟数字人。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07210

arXiv 提交日期: 2026-04-08

computer vision model training aigc fashion synthesis diffusion models multi-condition control preference optimization mixture-of-experts

VersaVogue：面向统一时尚合成的视觉专家编排与偏好对齐 / VersaVogue: Visual Expert Orchestration and Preference Alignment for Unified Fashion Synthesis

1️⃣ 一句话总结

这篇论文提出了一个名为VersaVogue的统一框架，它通过动态路由条件特征和自动化偏好优化，同时解决了服装生成和虚拟试衣两大时尚任务，显著提升了生成图像的逼真度、语义一致性和细节控制能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.11470

1️⃣ 一句话总结

arXiv ID: 2604.10954

1️⃣ 一句话总结

arXiv ID: 2604.08301

1️⃣ 一句话总结

arXiv ID: 2604.08063

1️⃣ 一句话总结

arXiv ID: 2604.08068

1️⃣ 一句话总结

arXiv ID: 2604.06989

1️⃣ 一句话总结

arXiv ID: 2604.06568

1️⃣ 一句话总结

arXiv ID: 2604.07159

1️⃣ 一句话总结

arXiv ID: 2604.07273

1️⃣ 一句话总结

arXiv ID: 2604.07210

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.11470 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.10954 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08301 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08063 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08068 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06989 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06568 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07159 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07273 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07210 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.11470

arXiv ID: 2604.10954

arXiv ID: 2604.08301

arXiv ID: 2604.08063

arXiv ID: 2604.08068

arXiv ID: 2604.06989

arXiv ID: 2604.06568

arXiv ID: 2604.07159

arXiv ID: 2604.07273

arXiv ID: 2604.07210