arXiv最新AI论文速览速学

🔍

aigc ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Talking Slide Avatars: Open-Source Multimodal Communication Approach for Teaching 05-02

arXiv ID: 2508.19205

arXiv 提交日期: 2025-08-26

audio model training aigc speech synthesis diffusion models speech tokenizer long-form audio multi-speaker

VibeVoice技术报告 / VibeVoice Technical Report

1️⃣ 一句话总结

这篇论文提出了VibeVoice模型，它通过一种创新的连续语音分词器和扩散技术，能够高效合成长达90分钟、最多包含4位说话人的多角色长语音，并真实还原对话氛围，性能优于现有开源和商业模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.18966

arXiv 提交日期: 2025-08-26

computer vision model training aigc style transfer subject-driven generation disentangled learning reward learning image customization

USO：通过解耦与奖励学习实现统一风格与主体驱动的生成 / USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning

1️⃣ 一句话总结

这项研究提出了一个名为USO的统一模型，能够同时保证生成图像在风格上与参考风格图相似、在主体内容上与原始内容图一致，解决了以往方法中风格与主体生成任务相互割裂的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.18621

arXiv 提交日期: 2025-08-26

video generation aigc audio character animation audio-driven cinematic video lip-sync video editing

万-S2V：音频驱动的影视视频生成 / Wan-S2V: Audio-Driven Cinematic Video Generation

1️⃣ 一句话总结

这篇论文提出了一种名为Wan-S2V的音频驱动视频生成模型，它能够根据音频创造出包含细腻角色互动、自然身体动作和动态镜头的高质量影视级视频，在表现力和真实感上显著优于现有技术。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.15774

arXiv 提交日期: 2025-08-21

video generation model training aigc high-resolution generation diffusion models inference scaling video synthesis resolution enhancement

CineScale：高分辨率影视视觉生成的免费午餐 / CineScale: Free Lunch in High-Resolution Cinematic Visual Generation

1️⃣ 一句话总结

这项研究提出了一种名为CineScale的新方法，无需额外训练就能让现有的图像和视频生成模型输出更高分辨率的内容，有效解决了以往方法在生成高分辨率画面时出现的重复图案问题，实现了从8K图像到4K视频的高质量生成。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.13618

arXiv 提交日期: 2025-08-19

computer vision aigc data talking head synthesis dataset facial animation demographic diversity evaluation benchmark

TalkVid：一个用于音频驱动说话头合成的大规模多样化数据集 / TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis

1️⃣ 一句话总结

这篇论文提出了一个名为TalkVid的大规模、高质量、多样化数据集，旨在解决当前音频驱动说话头生成模型在种族、语言和年龄群体上泛化能力不足的问题，并通过实验证明使用该数据集训练的模型具有更好的跨数据集泛化性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2508.19205

1️⃣ 一句话总结

arXiv ID: 2508.18966

1️⃣ 一句话总结

arXiv ID: 2508.18621

1️⃣ 一句话总结

arXiv ID: 2508.15774

1️⃣ 一句话总结

arXiv ID: 2508.13618

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2508.19205 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.18966 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.18621 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.15774 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.13618 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2508.19205

arXiv ID: 2508.18966

arXiv ID: 2508.18621

arXiv ID: 2508.15774

arXiv ID: 2508.13618