arXiv最新AI论文速览速学

🔍

aigc ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 77 72小时内新更新论文 72h更新 177 最新: How to Guide Your Flow: Few-Step Alignment via Flow Map Reward Guidance 05-03

arXiv ID: 2602.14552

arXiv 提交日期: 2026-02-16

computer vision aigc multi-modal virtual try-on image synthesis diffusion models training-free garment alignment

OmniVTON++：基于主姿态引导的免训练通用虚拟试穿方法 / OmniVTON++: Training-Free Universal Virtual Try-On with Principal Pose Guidance

1️⃣ 一句话总结

这篇论文提出了一种名为OmniVTON++的免训练通用虚拟试穿框架，它通过协调结构化的服装变形、主姿态引导和连续边界缝合技术，无需针对不同任务重新训练，就能在各种场景和服装类型下合成高质量、逼真的试穿图像。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14514

arXiv 提交日期: 2026-02-16

computer vision model training aigc diffusion models conditional generation efficient adaptation multimodal conditioning parameter efficiency

用于扩散模型的高效文本引导卷积适配器 / Efficient Text-Guided Convolutional Adapter for the Diffusion Model

1️⃣ 一句话总结

这篇论文提出了两种名为Nexus的高效适配器，它们能同时理解文本提示和结构输入（如草图），从而在保持图像结构的同时大幅减少模型参数量，提升了扩散模型的条件图像生成效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15030

arXiv 提交日期: 2026-02-16

computer vision model training aigc image generation spherical latent space single-pass generation encoder-decoder efficient inference

基于球面编码器的图像生成 / Image Generation with a Sphere Encoder

1️⃣ 一句话总结

这篇论文提出了一种名为‘球面编码器’的新型图像生成框架，它通过将图像映射到球面空间并直接解码生成图片，仅需一次或数次前向计算就能达到与复杂多步扩散模型相媲美的效果，同时大大降低了计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.12133

arXiv 提交日期: 2026-02-12

model evaluation aigc computer vision bias audit image generation fairness demographic representation colorimetric analysis

中性提示，非中性人群：量化Gemini Flash 2.5 Image与GPT Image 1.5中的性别与肤色偏见 / Neutral Prompts, Non-Neutral People: Quantifying Gender and Skin-Tone Bias in Gemini Flash 2.5 Image and GPT Image 1.5

1️⃣ 一句话总结

这项研究通过量化分析发现，即使使用中性文本提示，Gemini和GPT两大主流AI图像生成模型仍存在显著的肤色与性别偏见，例如默认生成白人形象，且在性别倾向上截然相反，揭示了‘中性’提示并不能保证公平、包容的图像生成结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10630

arXiv 提交日期: 2026-02-11

computer vision model training aigc super-resolution diffusion models generative adversarial networks image restoration model distillation

消除变分自编码器以实现快速高分辨率生成式细节恢复 / Eliminating VAE for Fast and High-Resolution Generative Detail Restoration

1️⃣ 一句话总结

这篇论文提出了一种名为GenDR-Pix的新方法，通过移除传统扩散模型中耗时的变分自编码器模块，并采用多阶段对抗蒸馏等技术，实现了对高分辨率图像（如4K图片）的快速、高质量细节恢复，速度提升近3倍且内存占用大幅减少。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10516

arXiv 提交日期: 2026-02-11

computer vision multi-modal aigc 3d talking avatar audio-driven generation lip synchronization facial animation virtual humans

3DXTalker：在富有表现力的3D说话数字人中统一身份、唇形同步、情感与空间动态 / 3DXTalker: Unifying Identity, Lip Sync, Emotion, and Spatial Dynamics in Expressive 3D Talking Avatars

1️⃣ 一句话总结

这篇论文提出了一个名为3DXTalker的新方法，它通过创新的数据处理、丰富的音频特征和可控的空间动态生成技术，在一个统一的框架内解决了3D说话数字人生成中身份保持、唇形同步、情感表达和头部姿态自然运动等多个关键难题，显著提升了数字人的表现力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08794

arXiv 提交日期: 2026-02-09

video generation multi-modal aigc audio-visual generation mixture-of-experts open-source lip sync multimodal modeling

MOVA：迈向可扩展且同步的视频-音频生成 / MOVA: Towards Scalable and Synchronized Video-Audio Generation

1️⃣ 一句话总结

这篇论文介绍了一个名为MOVA的开源模型，它能够一次性生成高质量且口型、音效、音乐都与画面内容同步的视听内容，旨在解决现有生成模型常忽略音频或依赖低效级联流程的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08682

arXiv 提交日期: 2026-02-09

video generation aigc multi-modal audio-video generation text-to-video&audio animation mmdit architecture benchmark

ALIVE：用逼真的音视频生成技术为你的世界注入活力 / ALIVE: Animate Your World with Lifelike Audio-Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为ALIVE的生成模型，它通过改进现有视频生成模型，使其能根据文本或参考视频同步生成高质量且音画同步的视频和音频，性能媲美顶尖商业方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08753

arXiv 提交日期: 2026-02-09

computer vision video generation aigc character animation multi-view optimization 3d human pose video synthesis temporal consistency

MVAnimate：利用多视角优化增强角色动画 / MVAnimate: Enhancing Character Animation with Multi-View Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为MVAnimate的新框架，它通过整合2D和3D的多视角先验信息，有效提升了角色动画视频的生成质量，解决了现有方法输出质量低和训练数据不足的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08363

arXiv 提交日期: 2026-02-09

aigc multi-modal theory quantum aesthetics generative ai artistic research data visualization cultural imagination

量子美学路线图 / Roadmap to Quantum Aesthetics

1️⃣ 一句话总结

这篇论文提出了一个研究量子美学的路线图，通过两种互补方法——利用生成式AI探索文化想象中的量子概念，以及直接可视化量子力学数据来创造艺术形式——来探索艺术如何作为媒介，将抽象的量子科学转化为可感知的美学现象。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.14552

1️⃣ 一句话总结

arXiv ID: 2602.14514

1️⃣ 一句话总结

arXiv ID: 2602.15030

1️⃣ 一句话总结

arXiv ID: 2602.12133

1️⃣ 一句话总结

arXiv ID: 2602.10630

1️⃣ 一句话总结

arXiv ID: 2602.10516

1️⃣ 一句话总结

arXiv ID: 2602.08794

1️⃣ 一句话总结

arXiv ID: 2602.08682

1️⃣ 一句话总结

arXiv ID: 2602.08753

1️⃣ 一句话总结

arXiv ID: 2602.08363

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.14552 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14514 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15030 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.12133 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10630 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10516 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08794 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08682 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08753 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08363 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.14552

arXiv ID: 2602.14514

arXiv ID: 2602.15030

arXiv ID: 2602.12133

arXiv ID: 2602.10630

arXiv ID: 2602.10516

arXiv ID: 2602.08794

arXiv ID: 2602.08682

arXiv ID: 2602.08753

arXiv ID: 2602.08363