arXiv最新AI论文速览速学

🔍

aigc ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Talking Slide Avatars: Open-Source Multimodal Communication Approach for Teaching 05-02

arXiv ID: 2604.28169

arXiv 提交日期: 2026-04-30

video generation aigc computer vision video diffusion physical priors controllable generation physics consistency controlnet

PhyCo：学习可控物理先验以生成运动 / PhyCo: Learning Controllable Physical Priors for Generative Motion

1️⃣ 一句话总结

本文提出了一种名为PhyCo的框架，通过结合大规模物理仿真数据集、物理监督的扩散模型微调以及视觉语言模型引导的优化，使视频生成模型能够精确控制物体的摩擦、弹性等物理属性，从而生成物理上更真实、更可控的运动视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27361

arXiv 提交日期: 2026-04-30

computer vision machine learning aigc 3d indoor scene synthesis cascaded diffusion layout generation relation graph controllability

CasLayout：基于隐式关系建模的级联三维布局扩散框架用于室内场景合成 / CasLayout: Cascaded 3D Layout Diffusion for Indoor Scene Synthesis with Implicit Relation Modeling

1️⃣ 一句话总结

本文提出了一种名为CasLayout的级联扩散框架，通过将室内场景生成分解为四个有序子任务（物体数量与类别预测、尺寸与特征优化、空间关系建模、边界框生成），并结合稀疏关系图和条件约束（如墙壁、门窗），在降低数据需求的同时，显著提升了生成布局的真实性、多样性和可控性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25164

arXiv 提交日期: 2026-04-28

computer vision multi-modal aigc motion generation body shape identity-aware human motion text-driven

身份感知的人体运动与身形联合生成 / IAM: Identity-Aware Human Motion and Shape Joint Generation

1️⃣ 一句话总结

本文提出了一种能同时生成人体运动与体型的AI模型，通过分析人的语言描述或视觉线索来识别其身体特征（如胖瘦、年龄），从而让生成的走路、跑步等动作看起来更符合该人物的真实体型和运动风格。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25806

arXiv 提交日期: 2026-04-28

llm aigc interactive courseware generative ui stem education multi-modal incremental generation

MAIC-UI：使用生成式用户界面制作交互式课件 / MAIC-UI: Making Interactive Courseware with Generative UI

1️⃣ 一句话总结

本文提出了一种名为MAIC-UI的零代码课件制作系统，它利用结构化知识分析和两阶段生成-验证-优化流程，让教育工作者无需编程即可将教材、PPT或PDF快速转化为交互式STEM课件，并在课堂实验中显著提升了学生的学习效果和自主学习能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24407

arXiv 提交日期: 2026-04-27

computer vision aigc image relighting advertising diffusion model training-free banner insertion

AD-Relight：基于扩散先验的光照翻译实现免训练广告横幅重照明 / AD-Relight: Training-Free Banner Relighting via Illumination Translation with Diffusion Priors

1️⃣ 一句话总结

本文提出了一种无需重新训练的新方法，能在视频或图像中为插入的广告横幅自动匹配场景光照，使其看起来更自然，从而提升广告的沉浸感和效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24493

arXiv 提交日期: 2026-04-27

computer vision aigc face swapping diffusion model identity preservation cross-attention facial generation

跨注意力引导的身份条件扩散模型实现身份一致的换脸 / CA-IDD: Cross-Attention Guided Identity-Conditional Diffusion for Identity-Consistent Face Swapping

1️⃣ 一句话总结

本文提出了一种名为CA-IDD的新型换脸方法，首次利用扩散模型结合多尺度跨注意力机制，将源人脸的身份特征精准迁移到目标人脸上，同时保留目标的表情、姿势和背景，在保持身份一致性和图像真实感方面超越了传统的GAN方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.23703

arXiv 提交日期: 2026-04-26

multi-modal aigc education talking avatar text-to-speech slide teaching open-source workflow synthetic media

会说话的幻灯片虚拟人：面向教学的开源多模态沟通方法 / Talking Slide Avatars: Open-Source Multimodal Communication Approach for Teaching

1️⃣ 一句话总结

本文介绍了一种免费、可复用的方法，让老师仅用一张照片和一段文字就能生成一个会说话的虚拟人视频，并嵌入到PPT或网页课件中，从而在网课、混合式教学中增加教师形象，提升学生的参与感，同时避免了录制全程视频的高昂时间成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21279

arXiv 提交日期: 2026-04-23

computer vision machine learning aigc facial attribute editing style manipulation diffusion models style modulation training stability

LatRef-Diff：基于潜变量与参考引导扩散模型的人脸属性编辑与风格操控 / LatRef-Diff: Latent and Reference-Guided Diffusion for Facial Attribute Editing and Style Manipulation

1️⃣ 一句话总结

本文提出了一种名为LatRef-Diff的新型扩散模型框架，通过用风格编码替代传统语义方向，并结合潜变量与参考引导两种生成方式，以及前后一致性的训练策略，实现了对人脸属性的精准编辑和风格的灵活操控。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20398

arXiv 提交日期: 2026-04-22

llm reinforcement learning aigc website generation multimodal reward aesthetic evaluation code generation reinforcement learning

WebGen-R1：利用强化学习激励大语言模型生成功能完善且美观的网站 / WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning

1️⃣ 一句话总结

本文提出一种名为WebGen-R1的端到端强化学习框架，通过创新的结构化生成方法和多模态奖励机制，成功将仅有7B参数的小型语言模型从几乎无法生成有效网页训练成能产出功能完整、视觉美观的多页网站，性能超越了高达72B的开源模型，并在功能正确性与美观度上媲美671B的顶尖模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19141

arXiv 提交日期: 2026-04-21

computer vision aigc diffusion models adaptive sampling image generation patch-level denoising text-to-image

去噪，快与慢：面向图像生成的难度感知自适应采样 / Denoising, Fast and Slow: Difficulty-Aware Adaptive Sampling for Image Generation

1️⃣ 一句话总结

本文提出了一种名为Patch Forcing的图像生成方法，通过让模型在生成图像时，对不同区域（如简单背景和复杂物体）采用不同的去噪速度，优先处理简单区域以帮助处理复杂区域，从而在不增加计算量的情况下提升图像质量，并在多个任务上取得更优结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.28169

1️⃣ 一句话总结

arXiv ID: 2604.27361

1️⃣ 一句话总结

arXiv ID: 2604.25164

1️⃣ 一句话总结

arXiv ID: 2604.25806

1️⃣ 一句话总结

arXiv ID: 2604.24407

1️⃣ 一句话总结

arXiv ID: 2604.24493

1️⃣ 一句话总结

arXiv ID: 2604.23703

1️⃣ 一句话总结

arXiv ID: 2604.21279

1️⃣ 一句话总结

arXiv ID: 2604.20398

1️⃣ 一句话总结

arXiv ID: 2604.19141

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.28169 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27361 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25164 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25806 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24407 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24493 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.23703 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21279 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20398 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19141 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.28169

arXiv ID: 2604.27361

arXiv ID: 2604.25164

arXiv ID: 2604.25806

arXiv ID: 2604.24407

arXiv ID: 2604.24493

arXiv ID: 2604.23703

arXiv ID: 2604.21279

arXiv ID: 2604.20398

arXiv ID: 2604.19141