arXiv最新AI论文速览速学

🔍

标签: #classifier-free guidance ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance 03-08

arXiv ID: 2603.03281

arXiv 提交日期: 2026-03-03

model training multi-modal theory diffusion models classifier-free guidance control theory text-to-image stability analysis

CFG-Ctrl：基于控制的免分类器扩散引导 / CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

1️⃣ 一句话总结

这篇论文提出了一种名为CFG-Ctrl的新框架，它将扩散模型中的免分类器引导技术重新解释为一个控制问题，并引入了一种更稳定、更精准的非线性控制方法，从而显著提升了AI生成图像与文本描述的匹配度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.05112

arXiv 提交日期: 2025-12-04

multi-modal model training model evaluation text-to-image generation chain-of-thought visual reasoning rare concept generation classifier-free guidance

DraCo：将草稿作为思维链用于文本到图像预览与稀有概念生成 / DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

1️⃣ 一句话总结

这篇论文提出了一种名为DraCo的新方法，它通过先生成低分辨率草稿图像进行预览和视觉规划，再利用模型自身能力进行语义验证和选择性修正，从而显著提升了多模态大模型在文本生成图像任务中的规划准确性和生成稀有概念组合的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21579

arXiv 提交日期: 2025-11-26

multi-modal aigc video generation audio-video synchronization diffusion models cross-modal generation classifier-free guidance temporal alignment

和谐：通过跨任务协同实现音视频生成的协调统一 / Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

1️⃣ 一句话总结

这篇论文提出了一个名为Harmony的新框架，通过跨任务协同训练、高效的全局-局部解耦交互模块以及同步增强的引导技术，解决了音视频生成中难以保持精确同步的核心难题，显著提升了生成内容的真实感和同步质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.03334

arXiv 提交日期: 2025-11-05

multi-modal video generation aigc audio-video generation diffusion transformers cross-modal interaction lip synchronization classifier-free guidance

UniAVGen：基于非对称跨模态交互的统一音视频生成框架 / UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

1️⃣ 一句话总结

这篇论文提出了一个名为UniAVGen的统一音视频生成框架，通过创新的跨模态交互机制有效解决了现有方法在口型同步和语义一致性上的不足，并能在单一模型中实现多种音视频生成任务，同时大幅减少了训练数据需求。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.08519

arXiv 提交日期: 2025-09-10

video generation multi-modal aigc human-centric video multimodal conditioning audio-visual sync subject preservation classifier-free guidance

HuMo：通过协作式多模态条件生成以人为中心的视频 / HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning

1️⃣ 一句话总结

这篇论文提出了一个名为HuMo的统一框架，通过构建高质量数据集和创新的训练策略，有效解决了多模态输入下人物视频生成中主体保持和音画同步的协调难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.03281

1️⃣ 一句话总结

arXiv ID: 2512.05112

1️⃣ 一句话总结

arXiv ID: 2511.21579

1️⃣ 一句话总结

arXiv ID: 2511.03334

1️⃣ 一句话总结

arXiv ID: 2509.08519

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.03281 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.05112 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.21579 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.03334 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.08519 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.03281

arXiv ID: 2512.05112

arXiv ID: 2511.21579

arXiv ID: 2511.03334

arXiv ID: 2509.08519