arXiv最新AI论文速览速学

🔍

aigc ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: RS-Gen: A Multi-Stage Agentic Framework for Reasoning and Search-Augmented Image Generation 06-23

arXiv ID: 2606.23221

arXiv 提交日期: 2026-06-22

computer vision agents aigc image generation reasoning search augmentation multi-stage framework agentic paradigm

RS-Gen：一种用于推理与搜索增强图像生成的多阶段智能体框架 / RS-Gen: A Multi-Stage Agentic Framework for Reasoning and Search-Augmented Image Generation

1️⃣ 一句话总结

本文提出了一种无需额外训练、即插即用的多阶段智能体框架RS-Gen，通过模拟“提问-解决”的闭环机制，让图像生成模型在遇到模糊指令、复杂逻辑或缺乏常识时能主动查找外部信息并进行深度推理，从而显著提升生成效果，并达到了开源模型的领先水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.18946

arXiv 提交日期: 2026-06-17

aigc natural language processing ai-generated text detection hybrid documents sentence-level benchmark structured prediction

SenFlow：面向混合文档中AI生成文本检测的句间流建模 / SenFlow: Inter-Sentence Flow Modeling for AI-Generated Text Detection in Hybrid Documents

1️⃣ 一句话总结

本文针对人类与AI协作撰写的混合文档，提出了一种名为SenFlow的新方法，通过建模句子之间的依赖关系（而非独立分类每个句子），并结合图传播与序列解码技术，显著提升了AI生成句子的检测准确率；同时，作者构建了包含最新大模型生成内容的高质量测试基准MOSAIC，实验证明该方法在跨领域场景下表现最优。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.18553

arXiv 提交日期: 2026-06-17

multi-modal machine learning aigc image captioning retrieval-augmented hierarchical retrieval knowledge grounding vlm

基于层级多模态检索的知识增强新闻图像描述生成 / Hierarchical Multi-Modal Retrieval for Knowledge-Grounded News Image Captioning

1️⃣ 一句话总结

本文提出了一种新的图像描述生成框架，通过层级化检索文章结构（如标题、正文和图像位置）并融合视觉与文本信息，帮助AI在生成新闻图片描述时补充图中看不到的深层背景知识，从而产出更丰富、更具上下文感的说明文字。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.13303

arXiv 提交日期: 2026-06-11

computer vision aigc diffusion models image editing inference method text-to-image edit fidelity

DuET：用于扩散图像编辑的双专家轨迹 / DuET: Dual Expert Trajectories for Diffusion Image Editing

1️⃣ 一句话总结

本文提出了一种无需重新训练的推理方法DuET，通过在编辑过程中暂时放松对源图像的依赖、引入文本到图像的生成阶段，有效提升了扩散模型在复杂场景下的编辑质量和语义一致性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.13382

arXiv 提交日期: 2026-06-11

computer vision aigc font generation few-shot learning diffusion model conditional generation

SmartFont：用于少样本字体生成的动态条件分配方法 / SmartFont: Dynamic Condition Allocation for Few-Shot Font Generation

1️⃣ 一句话总结

本文提出了一种名为SmartFont的扩散模型框架，通过智能地结合全局结构生成和局部细节校正，在仅需要少量参考样本的情况下，即可生成既完整又富有风格细节的新字体。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.13451

arXiv 提交日期: 2026-06-11

machine learning aigc model evaluation diffusion models uncertainty estimation molecular generation laplace approximation sample quality

分子扩散模型的不确定性估计 / Uncertainty Estimation for Molecular Diffusion Models

1️⃣ 一句话总结

本文提出了一种事后方法，通过分析扩散模型在分子生成过程中的噪声预测变化，来估计每个生成分子的质量可信度，从而帮助自动过滤低质量样本，提升模型的整体生成效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.11805

arXiv 提交日期: 2026-06-10

computer vision multi-modal aigc text-to-3d hand-object interaction multi-view generation mesh optimization discrete representation

TextHOI-3D：基于离散多视图生成与联合网格优化的文本到3D手物交互生成 / TextHOI-3D: Text-to-3D Hand-Object Interaction via Discrete Multi-View Generation and Joint Mesh Optimization

1️⃣ 一句话总结

本文提出一个两阶段框架，先根据文本提示生成手与物体交互的多视角离散图像，再通过联合优化将这些图像重建为高质量、无穿透的3D手物网格模型，显著提升了从文字生成3D手物交互的几何精度和物理合理性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.10894

arXiv 提交日期: 2026-06-09

computer vision aigc multi-modal portrait generation composition understanding dataset workshop competition controllable synthesis

第一届PortraitCraft挑战赛：CVPR 2026肖像构图理解与生成研讨会竞赛 / The 1st PortraitCraft Challenge: A CVPR 2026 Workshop Competition on Portrait Composition Understanding and Generation

1️⃣ 一句话总结

本文介绍了CVPR 2026举办的肖像构图理解与生成挑战赛，提出了一个包含两个互补赛道（构图理解和有条件生成）的统一评估框架，并发布了约5万张标注肖像数据集，旨在推动肖像美学分析和可控图像合成的AI研究。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.09479

arXiv 提交日期: 2026-06-08

computer vision machine learning aigc optical music recognition synthetic data domain adaptation handwritten music cultural heritage

利用合成数据实现真实手稿的光学乐谱识别 / Optical Music Recognition for Real-World Manuscripts with Synthetic Data

1️⃣ 一句话总结

本文针对真实世界中的手写乐谱（如图书馆珍藏手稿）由于视觉风格多样且缺乏训练数据而导致现有光学乐谱识别系统失效的问题，提出了一种结合合成图像和少量真实标注数据的低成本解决方案，显著提升了识别效果，向保护音乐文化遗产的目标迈进了一大步。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.09608

arXiv 提交日期: 2026-06-08

computer vision model training aigc super-resolution diffusion model upsampling tiled diffusion gans

TUDSR：双重升采样扩散模型用于更高分辨率的超分辨率重建 / TUDSR: Twice Upsampling-Diffusion for Higher Super-Resolution

1️⃣ 一句话总结

针对现有扩散模型在处理超高分辨率（如2048×2048）图像超分辨率时质量差的问题，本文提出一种基于两阶段训练的双重升采样扩散框架TUDSR，通过先用低分辨率训练再用循环分块策略在高分辨率上微调，在不增加硬件负担的情况下显著提升了图像质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.23221

1️⃣ 一句话总结

arXiv ID: 2606.18946

1️⃣ 一句话总结

arXiv ID: 2606.18553

1️⃣ 一句话总结

arXiv ID: 2606.13303

1️⃣ 一句话总结

arXiv ID: 2606.13382

1️⃣ 一句话总结

arXiv ID: 2606.13451

1️⃣ 一句话总结

arXiv ID: 2606.11805

1️⃣ 一句话总结

arXiv ID: 2606.10894

1️⃣ 一句话总结

arXiv ID: 2606.09479

1️⃣ 一句话总结

arXiv ID: 2606.09608

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.23221 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.18946 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.18553 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.13303 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.13382 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.13451 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.11805 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.10894 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.09479 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.09608 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.23221

arXiv ID: 2606.18946

arXiv ID: 2606.18553

arXiv ID: 2606.13303

arXiv ID: 2606.13382

arXiv ID: 2606.13451

arXiv ID: 2606.11805

arXiv ID: 2606.10894

arXiv ID: 2606.09479

arXiv ID: 2606.09608