arXiv最新AI论文速览速学

🔍

aigc ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: RS-Gen: A Multi-Stage Agentic Framework for Reasoning and Search-Augmented Image Generation 06-23

arXiv ID: 2606.05635

arXiv 提交日期: 2026-06-04

computer vision aigc multi-modal aesthetic cropping shot composition human-centric image reinforcement learning pseudo-labeling

ShotCrop³：将人物图像裁剪为电影化的三镜头构图 / ShotCrop$^3$: Cropping Human-Centric Images into Cinematic Triple-Shot Compositions

1️⃣ 一句话总结

本文提出一种新任务——从单张人物照片中自动生成三个不同视角和叙事功能的裁剪版本（广角交代环境、中景聚焦主体、特写强调细节），并开发了名为ShotCrop的算法，通过分阶段训练（先学基础推理、再用伪标签提升美感、最后用强化学习优化）实现高质量多镜头构图，其定位精度比GPT-5高出近3倍。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.05031

arXiv 提交日期: 2026-06-03

computer vision agents aigc spatial control positional encoding compositional generation visual generation

MetaPoint：解锁智能体视觉生成中的精确空间控制 / MetaPoint: Unlocking Precise Spatial Control in Agentic Visual Generation

1️⃣ 一句话总结

本文提出MetaPoint方法，通过将连续二维坐标表示为一个特殊标记，在不改变模型架构的前提下，实现了对图像中物体位置和边框的像素级精确控制，从而为智能体视觉生成和交互式编辑提供了简单、可扩展的空间控制基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.01608

arXiv 提交日期: 2026-06-01

computer vision machine learning aigc image compression diffusion model low bitrate rate-distortion-perception feature extraction

利用语义与像素表示实现超低比特率图像压缩 / Exploiting Semantic and Pixel Representations for Ultra-Low Bitrate Image Compression

1️⃣ 一句话总结

本文提出了一种名为SPRDiff的扩散模型压缩方法，通过结合语义和像素级特征来提升超低比特率下图像压缩的重建质量，在保持视觉真实感的同时，显著减少了与原始图像之间的像素级差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.30311

arXiv 提交日期: 2026-05-28

multi-modal aigc video generation digital human avatar generation autoregressive model token reduction diffusion decoder

Archon：面向全方位数字人生成的统一多模态模型 / Archon: A Unified Multimodal Model for Holistic Digital Human Generation

1️⃣ 一句话总结

本文提出一个名为Archon的统一多模态模型，它能同时处理文本、音频、动作和视觉等七种模态，通过高效的令牌压缩和逐步推理策略，高质量地生成逼真的数字人说话视频及其他虚拟人物内容。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.30073

arXiv 提交日期: 2026-05-28

multi-modal aigc audio audio-visual generation joint generation controllable generation diffusion model synchronization

面向生成的原生音视频对齐 / Native Audio-Visual Alignment for Generation

1️⃣ 一句话总结

本文提出了一种名为NAVA的音视频联合生成框架，通过先对齐音频与视频的对应关系、再结合外部文本条件引导生成过程的设计，有效解决了现有方法中音视频协同进化不足或语义条件与低级同步耦合的问题，仅用63亿参数即可生成高画质、同步精准、可控制音色的音视频内容。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.27551

arXiv 提交日期: 2026-05-26

llm aigc synthetic information steganography information heredity phylogenetic tracing cyber ecosystem

通过隐写继承追溯合成信息的起源 / On the Origin of Synthetic Information by Means of Steganographic Inheritance

1️⃣ 一句话总结

本文提出一种类似生物遗传的隐写机制，通过在AI生成的内容中嵌入不可见的溯源特征，来解决合成信息在传播过程中难以追踪祖先来源的问题，从而帮助识别信息是否来自特定模型或数据源。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.27135

arXiv 提交日期: 2026-05-26

computer vision aigc watermarking diffusion models robustness security ai-generated images

现代事后水印方法能否击败经典“断箭”方法？ / Do Modern Post-Hoc Watermarking Methods Beat Broken-Arrows?

1️⃣ 一句话总结

本文通过公平对比发现，在更注重安全性和鲁棒性的真实应用场景中，经典的“断箭”水印方法不仅与现代方法一样鲁棒，而且在抵御恶意攻击方面表现更优，挑战了“现代方法一定更好”的普遍认知。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.26582

arXiv 提交日期: 2026-05-26

machine learning aigc discrete diffusion sampling stochasticity error correction inference algorithm speed-quality tradeoff

离散扩散中随机性的纠错效应研究 / On the Error-Correcting Effects of Stochasticity in Discrete Diffusion

1️⃣ 一句话总结

这项研究揭示了离散扩散模型中随机性可以起到纠错作用，通过提出一种交替前向和反向扩散过程的采样算法（DCRS），在不牺牲生成质量的前提下显著减少了采样步数（图像任务最多减少10倍），从而平衡了采样效率与样本质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.26628

arXiv 提交日期: 2026-05-26

machine learning aigc model training post-training quantization text-to-video activation calibration low-bit quantization wan2.2

尾感知HiFloat4：面向Wan2.2的W4A4训练后量化方法 / Tail-Aware HiFloat4: W4A4 Post-Training Quantization for Wan2.2

1️⃣ 一句话总结

该论文提出了一种针对Wan2.2文本转视频模型的低比特量化方案，通过引入尾感知的百分位校准模块和边界高精度保留策略，在将模型权重和激活值压缩至4位精度的同时，有效抑制了罕见校准异常值的影响，保持了推理效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.27174

arXiv 提交日期: 2026-05-26

audio aigc model evaluation sound design ai integration workflow professional audio user study

AI在音效设计师工作流程与体验中的应用研究 / An investigation of AI integration in sound designer workflows and experiences

1️⃣ 一句话总结

通过调查76位从业者和深度访谈20位专业人士，本文发现当前AI工具在快速消费媒体中表现尚可，但在高端音效（如电影、沉浸式体验）中缺乏叙事深度，音效设计师更偏好辅助性和特定任务（如音频修复、素材管理）的AI应用，而非端到端的生成式系统，并据此为开发者提出了改进AI工具的建议。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.05635

1️⃣ 一句话总结

arXiv ID: 2606.05031

1️⃣ 一句话总结

arXiv ID: 2606.01608

1️⃣ 一句话总结

arXiv ID: 2605.30311

1️⃣ 一句话总结

arXiv ID: 2605.30073

1️⃣ 一句话总结

arXiv ID: 2605.27551

1️⃣ 一句话总结

arXiv ID: 2605.27135

1️⃣ 一句话总结

arXiv ID: 2605.26582

1️⃣ 一句话总结

arXiv ID: 2605.26628

1️⃣ 一句话总结

arXiv ID: 2605.27174

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.05635 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.05031 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.01608 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.30311 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.30073 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.27551 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.27135 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.26582 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.26628 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.27174 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.05635

arXiv ID: 2606.05031

arXiv ID: 2606.01608

arXiv ID: 2605.30311

arXiv ID: 2605.30073

arXiv ID: 2605.27551

arXiv ID: 2605.27135

arXiv ID: 2605.26582

arXiv ID: 2605.26628

arXiv ID: 2605.27174