arXiv最新AI论文速览速学

🔍

标签: #aigc ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 200 72小时内新更新论文 72h更新 205 最新: High-Fidelity 3D Facial Avatar Synthesis with Controllable Fine-Grained Expressions 03-17

arXiv ID: 2601.15621

arXiv 提交日期: 2026-01-22

audio natural language processing aigc text-to-speech voice cloning multilingual tts streaming synthesis speech tokenizer

Qwen3-TTS技术报告 / Qwen3-TTS Technical Report

1️⃣ 一句话总结

这篇论文介绍了Qwen3-TTS系列模型，这是一个支持多语言、可控、鲁棒且能实时流式合成语音的先进系统，它通过创新的双轨架构和两种语音分词器，实现了仅需3秒的语音克隆、基于描述的精细控制以及超低延迟的语音生成。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14103

arXiv 提交日期: 2026-01-20

computer vision aigc model training 3d morphing textured generation correspondence interpolation generative prior

Interp3D：用于生成带纹理3D形变的对应关系感知插值方法 / Interp3D: Correspondence-aware Interpolation for Generative Textured 3D Morphing

1️⃣ 一句话总结

这篇论文提出了一种名为Interp3D的新方法，它无需额外训练就能在保持结构和纹理一致性的前提下，生成两个带纹理3D模型之间平滑且逼真的过渡动画，解决了现有方法在形变时容易导致语义模糊、结构错位和纹理模糊的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.11096

arXiv 提交日期: 2026-01-16

computer vision multi-modal aigc character animation image-to-video motion transfer multi-subject rendering pose guidance

CoDance：一种用于鲁棒多主体动画的解绑-重绑范式 / CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation

1️⃣ 一句话总结

这篇论文提出了一种名为CoDance的新方法，通过‘解绑’运动与位置的强关联并‘重绑’运动到指定目标，解决了现有技术难以处理图像中任意数量、类型或位置错位的多个角色动画的问题，实现了更灵活、鲁棒的多主体动画生成。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10714

arXiv 提交日期: 2026-01-15

computer vision model training aigc image editing diffusion models attribute manipulation identity preservation vision-language models

Alterbute：编辑图像中物体的内在属性 / Alterbute: Editing Intrinsic Attributes of Objects in Images

1️⃣ 一句话总结

这篇论文提出了一个名为Alterbute的新方法，它能够像修图一样精准地改变图片中某个物体的颜色、材质甚至形状，同时还能保持这个物体本身的‘身份’（比如一辆特定的汽车型号）和周围场景不变，效果比现有技术更好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10103

arXiv 提交日期: 2026-01-15

video generation aigc agents interactive video humanoid agents real-time synthesis temporal consistency full-body control

FlowAct-R1：迈向交互式人形视频生成 / FlowAct-R1: Towards Interactive Humanoid Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为FlowAct-R1的新框架，它能够实时生成栩栩如生、能与用户持续互动的人形角色视频，在保证高质量画面的同时，实现了低延迟和流畅的交互体验。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.09881

arXiv 提交日期: 2026-01-14

video generation model training aigc knowledge distillation diffusion models flow matching text-to-video efficient inference

用于快速视频生成的过渡匹配蒸馏 / Transition Matching Distillation for Fast Video Generation

1️⃣ 一句话总结

这项研究提出了一种名为‘过渡匹配蒸馏’的新方法，它通过将大型视频扩散模型的知识压缩到轻量级条件流模型中，在保持视频生成质量的同时，大幅提升了生成速度，使其更适用于实时交互应用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.08587

arXiv 提交日期: 2026-01-13

computer vision video aigc video editing character replacement conditional generation synthetic data post-training

无需结构引导的端到端视频人物替换 / End-to-End Video Character Replacement without Structural Guidance

1️⃣ 一句话总结

这篇论文提出了一种名为MoCha的新方法，它只需要一张任意帧的遮罩图，就能在复杂场景下实现高质量、时序连贯的视频人物替换，克服了以往方法依赖繁琐结构引导和配对数据的限制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.08881

arXiv 提交日期: 2026-01-12

model training multi-modal aigc mixture-of-experts image generation image editing task-aware routing diffusion transformers

TAG-MoE：面向统一生成模型的专家混合任务感知门控机制 / TAG-MoE: Task-Aware Gating for Unified Generative Mixture-of-Experts

1️⃣ 一句话总结

这篇论文提出了一种让专家混合模型能‘看懂任务’的新方法，通过给任务添加语义标签并引导模型内部路由与之对齐，有效解决了统一图像生成与编辑模型中不同任务相互干扰的问题，从而提升了生成效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.05823

arXiv 提交日期: 2026-01-09

model training computer vision aigc latent diffusion models variational autoencoders semantic disentanglement representation alignment image generation

通过解耦表征对齐提升潜在扩散模型 / Boosting Latent Diffusion Models via Disentangled Representation Alignment

1️⃣ 一句话总结

这篇论文提出了一种名为Send-VAE的新型图像编码器，它通过将编码器的潜在空间与视觉基础模型的语义层次对齐，实现了对图像属性的解耦表征，从而显著提升了潜在扩散模型的图像生成质量和训练效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.05966

arXiv 提交日期: 2026-01-09

video generation model training aigc autoregressive models next-frame prediction multi-scale tokenizer temporal consistency video synthesis

VideoAR：通过下一帧与尺度预测的自回归视频生成 / VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction

1️⃣ 一句话总结

本文提出了首个大规模视觉自回归视频生成框架VideoAR，它通过结合多尺度下一帧预测与自回归建模，在显著提升生成效率的同时，达到了与主流扩散模型相媲美的视频质量，为高效且高质量的视频生成提供了新方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.15621

1️⃣ 一句话总结

arXiv ID: 2601.14103

1️⃣ 一句话总结

arXiv ID: 2601.11096

1️⃣ 一句话总结

arXiv ID: 2601.10714

1️⃣ 一句话总结

arXiv ID: 2601.10103

1️⃣ 一句话总结

arXiv ID: 2601.09881

1️⃣ 一句话总结

arXiv ID: 2601.08587

1️⃣ 一句话总结

arXiv ID: 2601.08881

1️⃣ 一句话总结

arXiv ID: 2601.05823

1️⃣ 一句话总结

arXiv ID: 2601.05966

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.15621 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14103 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.11096 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10714 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10103 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.09881 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.08587 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.08881 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.05823 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.05966 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.15621

arXiv ID: 2601.14103

arXiv ID: 2601.11096

arXiv ID: 2601.10714

arXiv ID: 2601.10103

arXiv ID: 2601.09881

arXiv ID: 2601.08587

arXiv ID: 2601.08881

arXiv ID: 2601.05823

arXiv ID: 2601.05966