arXiv最新AI论文速览速学

📄

2512.01030

🤖 系统

12-02 15:05

computer vision model training multi-modal

geometric dense prediction monocular depth estimation surface normal prediction diffusion models deterministic inference

Lotus-2：利用强大的图像生成模型推进几何密集预测 / Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model

1️⃣ 一句话总结

这篇论文提出了一个名为Lotus-2的两阶段新方法，它巧妙地改造了原本用于生成多样化图像的扩散模型，使其能稳定、精确地从单张图片中预测出像素级的几何结构（如深度和表面朝向），并且只用极少量数据就达到了顶尖水平。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.18822

🤖 系统

12-01 15:00

computer vision model training aigc

diffusion models image generation efficient inference transformer high-resolution synthesis

DiP：在像素空间中驯服扩散模型 / DiP: Taming Diffusion Models in Pixel Space

1️⃣ 一句话总结

这篇论文提出了一种名为DiP的新型高效像素空间扩散模型框架，它通过将图像生成过程分解为全局结构构建和局部细节修复两个协同阶段，在无需依赖压缩编码器的情况下，实现了与潜在扩散模型相当的生成质量和计算效率，显著提升了高分辨率图像合成的速度。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.22688

🤖 系统

12-01 14:49

model training machine learning computer vision

diffusion models test-time adaptation flow maps image editing reward maximization

基于流映射的扩散模型测试时缩放 / Test-time scaling of diffusions with flow maps

1️⃣ 一句话总结

这篇论文提出了一种名为FMTT的新方法，通过直接利用流映射而非奖励梯度，在扩散模型生成过程中更有效地引导样本向用户指定的奖励方向优化，从而实现了比现有方法更好的图像编辑和控制效果。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.22625

🤖 系统

12-01 14:32

multi-modal model training computer vision

image editing reasoning multimodal llm diffusion models instruction following

REASONEDIT：迈向推理增强的图像编辑模型 / REASONEDIT: Towards Reasoning-Enhanced Image Editing Models

1️⃣ 一句话总结

这篇论文提出了一种名为ReasonEdit的新框架，通过解锁大型多模态语言模型的推理能力，让AI在编辑图片时能像人一样先思考指令、再检查结果并自动修正错误，从而显著提升了图像编辑的准确性和效果。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.19111

🤖 系统

11-30 20:02

computer vision aigc benchmark

image segmentation diffusion models localized editing ai-generated content detection multi-turn editing

📄 论文总结

DiffSeg30k：一个用于局部AIGC检测的多轮扩散编辑基准数据集 / DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection

1️⃣ 一句话总结

这篇论文提出了一个包含3万张扩散编辑图像的数据集DiffSeg30k，将AI生成内容检测从简单的图像分类提升到像素级定位，帮助更精确地识别和定位被AI修改的图像区域。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.19797

🤖 系统

11-30 19:20

model training computer vision machine learning

flow matching diffusion models generative modeling transformer architecture image generation

📄 论文总结

终端速度匹配 / Terminal Velocity Matching

1️⃣ 一句话总结

这项研究提出了一种名为终端速度匹配的新方法，通过优化扩散模型在生成结束时的行为，实现了仅需1到4步就能生成高质量图像，在ImageNet数据集上取得了当前最优的单步/少步生成效果。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.21579

🤖 系统

11-30 18:58

multi-modal aigc video generation

audio-video synchronization diffusion models cross-modal generation classifier-free guidance temporal alignment

📄 论文总结

和谐：通过跨任务协同实现音视频生成的协调统一 / Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

1️⃣ 一句话总结

这篇论文提出了一个名为Harmony的新框架，通过跨任务协同训练、高效的全局-局部解耦交互模块以及同步增强的引导技术，解决了音视频生成中难以保持精确同步的核心难题，显著提升了生成内容的真实感和同步质量。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.20410

🤖 系统

11-30 18:51

model training machine learning systems

timestep distillation consistency models efficient generation training-free diffusion models

📄 论文总结

基于轨迹采样对连续时间一致性的免图像时间步蒸馏 / Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled Pairs

1️⃣ 一句话总结

这项研究提出了一种无需外部训练数据的扩散模型高效蒸馏方法，通过直接从教师模型的生成轨迹中提取特征来训练轻量级生成模型，在显著减少训练时间和资源消耗的同时保持了高质量的图像生成效果。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.21691

🤖 系统

11-30 18:26

computer vision multi-modal model training

image generation multimodal control diffusion models compositional generation spatial reasoning

📄 论文总结

画布到图像：基于多模态控制的组合式图像生成 / Canvas-to-Image: Compositional Image Generation with Multimodal Controls

1️⃣ 一句话总结

这篇论文提出了一个名为Canvas-to-Image的统一框架，通过将文本、参考图像、空间布局等多种控制信号整合到一个画布中，并采用多任务联合训练，使AI模型能够更准确地生成符合用户复杂意图的组合图像。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.16317

🤖 系统

11-30 17:56

computer vision model training aigc

texture generation 3d generation diffusion models point cloud geometry-aware

📄 论文总结

NaTex：作为潜在颜色扩散的无缝纹理生成 / NaTex: Seamless Texture Generation as Latent Color Diffusion

1️⃣ 一句话总结

这篇论文提出了一个名为NaTex的新方法，它直接在三维空间中生成纹理颜色，通过将纹理视为密集颜色点云并采用创新的潜在颜色扩散技术，有效解决了传统方法在遮挡区域处理、纹理与模型精确对齐以及多视图一致性方面的难题，显著提升了纹理生成的质量和适用范围。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2512.01030

1️⃣ 一句话总结

2511.18822

1️⃣ 一句话总结

2511.22688

1️⃣ 一句话总结

2511.22625

1️⃣ 一句话总结

2511.19111

📄 论文总结

1️⃣ 一句话总结

2511.19797

📄 论文总结

1️⃣ 一句话总结

2511.21579

📄 论文总结

1️⃣ 一句话总结

2511.20410

📄 论文总结

1️⃣ 一句话总结

2511.21691

📄 论文总结

1️⃣ 一句话总结

2511.16317

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2512.01030 📝

1️⃣ 一句话总结

2511.18822 📝

1️⃣ 一句话总结

2511.22688 📝

1️⃣ 一句话总结

2511.22625 📝

1️⃣ 一句话总结

2511.19111 📝

📄 论文总结

1️⃣ 一句话总结

2511.19797 📝

📄 论文总结

1️⃣ 一句话总结

2511.21579 📝

📄 论文总结

1️⃣ 一句话总结

2511.20410 📝

📄 论文总结

1️⃣ 一句话总结

2511.21691 📝

📄 论文总结

1️⃣ 一句话总结

2511.16317 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2512.01030

2511.18822

2511.22688

2511.22625

2511.19111

2511.19797

2511.21579

2511.20410

2511.21691

2511.16317