arXiv最新AI论文速览速学

🔍

aigc ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Talking Slide Avatars: Open-Source Multimodal Communication Approach for Teaching 05-02

arXiv ID: 2603.18599

arXiv 提交日期: 2026-03-19

model training aigc multi-modal speculative decoding text-to-image inference acceleration autoregressive generation jacobi decoding

SJD-PAC：通过主动草拟与自适应延续加速推测性雅可比解码 / SJD-PAC: Accelerating Speculative Jacobi Decoding via Proactive Drafting and Adaptive Continuation

1️⃣ 一句话总结

这篇论文提出了一种名为SJD-PAC的改进方法，通过主动预测高难度区域的图像内容并允许在首次预测失败后继续尝试而非完全重来，从而在不损失图像质量的前提下，将文本生成图像的推理速度提升了约3.8倍。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.18528

arXiv 提交日期: 2026-03-19

model training multi-modal aigc text-to-image compositional generation reward optimization diffusion models multi-reward learning

面向组合式生成的关联加权多奖励优化 / Correlation-Weighted Multi-Reward Optimization for Compositional Generation

1️⃣ 一句话总结

这篇论文提出了一种名为关联加权多奖励优化的新方法，通过分析不同概念奖励之间的关联性，自适应地调整优化权重，有效提升了文生图模型在复杂多概念提示下的组合生成能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.18991

arXiv 提交日期: 2026-03-19

model training aigc machine learning diffusion models fine-tuning preference alignment data efficiency reinforcement learning

CRAFT：对齐扩散模型的微调比你想象的更容易 / CRAFT: Aligning Diffusion Models with Fine-Tuning Is Easier Than You Think

1️⃣ 一句话总结

本文提出了一种名为CRAFT的新型微调方法，它通过一种复合奖励筛选技术，仅需少量高质量数据就能高效地让AI图像生成模型更好地符合人类偏好，并且训练速度远超现有主流方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.19036

arXiv 提交日期: 2026-03-19

computer vision model training aigc image restoration diffusion models reflection removal prior modulation single image

FUMO：基于先验调制的扩散模型用于单图像反射去除 / FUMO: Prior-Modulated Diffusion for Single Image Reflection Removal

1️⃣ 一句话总结

这篇论文提出了一种名为FUMO的新方法，它通过从混合图像中提取反射强度和结构细节两种先验信息，并分阶段引导扩散模型，从而更精准地从单张照片中去除恼人的玻璃或水面反光，同时更好地保留背景画面的原始细节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.18767

arXiv 提交日期: 2026-03-19

model training aigc multi-modal concept unlearning text-to-image diffusion models safety adversarial robustness

一个概念不止一个词：文本到图像扩散模型中的多样化遗忘 / A Concept is More Than a Word: Diversified Unlearning in Text-to-Image Diffusion Models

1️⃣ 一句话总结

这篇论文提出了一种名为‘多样化遗忘’的新方法，通过使用一组多样化的文本提示来更精确地代表一个概念，从而在文本到图像生成模型中更有效地、更少副作用地‘遗忘’掉有害或不想要的概念，解决了传统仅依赖关键词进行遗忘时容易误删相关内容的局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.19222

arXiv 提交日期: 2026-03-19

model training computer vision aigc diffusion models noise schedules spectral guidance image generation sampling efficiency

基于频谱引导的扩散模型噪声调度方法 / Spectrally-Guided Diffusion Noise Schedules

1️⃣ 一句话总结

这篇论文提出了一种根据图像频谱特性自动设计噪声调度的方法，通过消除冗余步骤，在低步数采样时显著提升了扩散模型的图像生成质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17995

arXiv 提交日期: 2026-03-18

computer vision model training aigc 3d shape generation tokenization autoregressive models semantic alignment geometric reconstruction

LoST：面向三维形状的语义层级分词方法 / LoST: Level of Semantics Tokenization for 3D Shapes

1️⃣ 一句话总结

这篇论文提出了一种名为LoST的新方法，它通过让AI模型按照语义重要性来理解和编码三维形状，从而用更少的数据量生成更逼真、语义更清晰的三维模型，并显著提升了生成质量和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17637

arXiv 提交日期: 2026-03-18

computer vision model training aigc generative adversarial networks image synthesis mamba architecture class conditioning latent space

DSS-GAN：基于Mamba骨干网络的方向性状态空间生成对抗网络用于类别条件图像合成 / DSS-GAN: Directional State Space GAN with Mamba backbone for Class-Conditional Image Synthesis

1️⃣ 一句话总结

这篇论文提出了一种名为DSS-GAN的新图像生成模型，它首次将Mamba模型作为核心生成器，并通过一种创新的‘方向性潜在路由’技术，将类别信息和随机噪声沿着不同空间方向巧妙结合，从而生成了质量更高、控制更精细的类别相关图像。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17841

arXiv 提交日期: 2026-03-18

computer vision model training aigc 3d editing generative model multi-view synthesis efficiency instruction-driven

Omni-3DEdit：一次性实现通用多功能三维编辑 / Omni-3DEdit: Generalized Versatile 3D Editing in One-Pass

1️⃣ 一句话总结

这篇论文提出了一个名为Omni-3DEdit的通用学习模型，它能够一次性快速完成多种三维编辑任务（如改变外观、移除物体等），无需传统方法中耗时的迭代优化过程。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17295

arXiv 提交日期: 2026-03-18

computer vision model training aigc story visualization identity consistency attention mechanism preference optimization video generation

引导叙事：一种用于控制故事生成连贯性与风格的微调方法 / Directing the Narrative: A Finetuning Method for Controlling Coherence and Style in Story Generation

1️⃣ 一句话总结

这篇论文提出了一种两阶段框架，通过一种新的注意力机制确保角色身份在故事图像生成中保持一致，并利用人类偏好优化技术提升画面的美观度和叙事连贯性，从而显著提升了故事生成的质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.18599

1️⃣ 一句话总结

arXiv ID: 2603.18528

1️⃣ 一句话总结

arXiv ID: 2603.18991

1️⃣ 一句话总结

arXiv ID: 2603.19036

1️⃣ 一句话总结

arXiv ID: 2603.18767

1️⃣ 一句话总结

arXiv ID: 2603.19222

1️⃣ 一句话总结

arXiv ID: 2603.17995

1️⃣ 一句话总结

arXiv ID: 2603.17637

1️⃣ 一句话总结

arXiv ID: 2603.17841

1️⃣ 一句话总结

arXiv ID: 2603.17295

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.18599 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.18528 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.18991 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.19036 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.18767 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.19222 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17995 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17637 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17841 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17295 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.18599

arXiv ID: 2603.18528

arXiv ID: 2603.18991

arXiv ID: 2603.19036

arXiv ID: 2603.18767

arXiv ID: 2603.19222

arXiv ID: 2603.17995

arXiv ID: 2603.17637

arXiv ID: 2603.17841

arXiv ID: 2603.17295