arXiv最新AI论文速览速学

🔍

aigc ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering 03-17

arXiv ID: 2602.21133

arXiv 提交日期: 2026-02-24

model training multi-modal aigc vector quantization self-organizing maps generative models interpretability human-in-the-loop

SOM-VQ：面向交互式生成模型的拓扑感知分词方法 / SOM-VQ: Topology-Aware Tokenization for Interactive Generative Models

1️⃣ 一句话总结

这篇论文提出了一种名为SOM-VQ的新方法，它将向量量化与自组织映射相结合，为生成模型学习具有明确拓扑结构的离散编码，使得用户能够通过直观地操作编码空间中的距离来控制和引导生成过程，特别适用于需要人机交互的领域，如人体运动生成。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21188

arXiv 提交日期: 2026-02-24

computer vision video generation aigc human video generation diffusion models 3d pose control multi-view consistency image-to-video

基于单张图像、三维姿态与视角控制的人类视频生成 / Human Video Generation from a Single Image with 3D Pose and View Control

1️⃣ 一句话总结

这篇论文提出了一种名为HVG的新方法，它能够仅凭一张人物照片，通过控制三维姿态和观看角度，自动生成高质量、多视角、动作连贯流畅的人物视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19900

arXiv 提交日期: 2026-02-23

computer vision aigc video generation portrait generation diffusion models expression transfer personalized representation video synthesis

ExpPortrait：通过个性化表征生成富有表现力的肖像 / ExpPortrait: Expressive Portrait Generation via Personalized Representation

1️⃣ 一句话总结

这篇论文提出了一种新的高保真个性化头部表征方法，能更好地分离表情和身份信息，并基于此训练了一个扩散模型，从而生成在身份保持、表情准确性和细节丰富度上都更优的富有表现力的肖像视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19523

arXiv 提交日期: 2026-02-23

computer vision aigc model training image composition generative models foreground-background fusion two-stage training realistic image generation

OSInsert：迈向高真实感与高保真度的图像合成 / OSInsert: Towards High-authenticity and High-fidelity Image Composition

1️⃣ 一句话总结

这篇论文提出了一个名为OSInsert的两阶段图像合成新方法，它通过先调整前景物体形状以适应背景（高真实感），再精确保留前景细节（高保真度），从而首次同时实现了合成图像既自然逼真又细节清晰的目标。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19163

arXiv 提交日期: 2026-02-22

aigc multi-modal model training audio-video generation diffusion transformer preference optimization temporal alignment mixture-of-experts

JavisDiT++：面向联合音视频生成的统一建模与优化 / JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为JavisDiT++的新框架，它通过创新的专家混合模块、时序对齐技术和人类偏好优化方法，显著提升了根据文字描述同时生成高质量、音画同步视频的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16343

arXiv 提交日期: 2026-02-18

audio aigc model evaluation audio deepfake detection neural audio codec asvspoof data labeling speech synthesis

如何标注重合成音频：神经音频编解码器在音频深度伪造检测中的双重角色 / How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection

1️⃣ 一句话总结

这篇论文探讨了神经音频编解码器在音频伪造检测中的双重用途问题，并通过构建一个挑战性的数据集，研究了不同数据标注策略对检测性能的影响。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16729

arXiv 提交日期: 2026-02-17

llm model evaluation aigc ai safety dataset evaluation jailbreaking intent laundering adversarial attacks

意图洗白：AI安全数据集名不副实 / Intent Laundering: AI Safety Datasets Are Not What They Seem

1️⃣ 一句话总结

这篇论文发现，当前广泛使用的AI安全数据集过度依赖带有明显负面色彩的‘触发词’来测试模型，这与现实攻击手法不符；研究通过一种‘意图洗白’的方法剥离这些触发词后，所有被评估为‘安全’的主流AI模型都变得不安全，揭示了现有安全评估与现实威胁之间存在巨大脱节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15698

arXiv 提交日期: 2026-02-17

aigc systems behavior strategic disclosure crowdfunding signaling theory ai transparency investment decisions

如何披露？众筹中的人工智能战略披露 / How to Disclose? Strategic AI Disclosure in Crowdfunding

1️⃣ 一句话总结

这篇论文研究发现，在众筹项目中强制披露使用人工智能会显著降低筹款效果，但通过采用高真实性、高清晰度的披露策略可以缓解这种负面影响，而过度使用积极情绪的策略反而会适得其反。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14552

arXiv 提交日期: 2026-02-16

computer vision aigc multi-modal virtual try-on image synthesis diffusion models training-free garment alignment

OmniVTON++：基于主姿态引导的免训练通用虚拟试穿方法 / OmniVTON++: Training-Free Universal Virtual Try-On with Principal Pose Guidance

1️⃣ 一句话总结

这篇论文提出了一种名为OmniVTON++的免训练通用虚拟试穿框架，它通过协调结构化的服装变形、主姿态引导和连续边界缝合技术，无需针对不同任务重新训练，就能在各种场景和服装类型下合成高质量、逼真的试穿图像。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14514

arXiv 提交日期: 2026-02-16

computer vision model training aigc diffusion models conditional generation efficient adaptation multimodal conditioning parameter efficiency

用于扩散模型的高效文本引导卷积适配器 / Efficient Text-Guided Convolutional Adapter for the Diffusion Model

1️⃣ 一句话总结

这篇论文提出了两种名为Nexus的高效适配器，它们能同时理解文本提示和结构输入（如草图），从而在保持图像结构的同时大幅减少模型参数量，提升了扩散模型的条件图像生成效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.21133

1️⃣ 一句话总结

arXiv ID: 2602.21188

1️⃣ 一句话总结

arXiv ID: 2602.19900

1️⃣ 一句话总结

arXiv ID: 2602.19523

1️⃣ 一句话总结

arXiv ID: 2602.19163

1️⃣ 一句话总结

arXiv ID: 2602.16343

1️⃣ 一句话总结

arXiv ID: 2602.16729

1️⃣ 一句话总结

arXiv ID: 2602.15698

1️⃣ 一句话总结

arXiv ID: 2602.14552

1️⃣ 一句话总结

arXiv ID: 2602.14514

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.21133 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21188 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19900 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19523 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19163 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16343 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16729 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15698 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14552 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14514 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.21133

arXiv ID: 2602.21188

arXiv ID: 2602.19900

arXiv ID: 2602.19523

arXiv ID: 2602.19163

arXiv ID: 2602.16343

arXiv ID: 2602.16729

arXiv ID: 2602.15698

arXiv ID: 2602.14552

arXiv ID: 2602.14514