arXiv最新AI论文速览速学

🔍

aigc ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Talking Slide Avatars: Open-Source Multimodal Communication Approach for Teaching 05-02

arXiv ID: 2604.04380

arXiv 提交日期: 2026-04-06

natural language processing multi-modal aigc creative design language model visual style generation editable documents layout prediction

CPT：利用语言模型生成可控且可编辑的设计变体 / CPT: Controllable and Editable Design Variations with Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为CPT的系统，它通过一个经过专门训练的语言模型，能够根据设计师提供的模板，自动生成风格多样、内部协调一致且完全可编辑的设计方案，从而将原本耗时的手动设计过程自动化。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04634

arXiv 提交日期: 2026-04-06

video model evaluation aigc video forensics ai-generated video detection native-scale processing forgery artifacts benchmark dataset

保留伪造痕迹：原生尺度下的AI生成视频检测 / Preserving Forgery Artifacts: AI-Generated Video Detection at Native Scale

1️⃣ 一句话总结

这篇论文针对现有AI生成视频检测方法会因固定尺寸预处理而丢失关键伪造痕迹的问题，提出了一个包含海量视频的新数据集和一个能在视频原始分辨率下直接分析、从而有效保留高频伪造特征的新型检测框架，显著提升了检测准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04142

arXiv 提交日期: 2026-04-05

model training aigc multi-modal off-policy learning flow matching generative models sample efficiency importance sampling

OP-GRPO：面向流匹配模型的高效离策略GRPO方法 / OP-GRPO: Efficient Off-Policy GRPO for Flow-Matching Models

1️⃣ 一句话总结

这篇论文提出了一种名为OP-GRPO的新方法，它通过引入离策略训练、高质量样本重用和分布偏移校正技术，大幅提升了流匹配模型（用于图像和视频生成）的训练效率，在保持生成质量的同时，平均只需原来约三分之一的训练步骤即可达到同等或更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.02088

arXiv 提交日期: 2026-04-02

computer vision model training aigc image editing rectified flow training-free fidelity preservation continuous control

FlowSlider：通过保真度-导向分解实现无需训练的图像连续编辑 / FlowSlider: Training-Free Continuous Image Editing via Fidelity-Steering Decomposition

1️⃣ 一句话总结

这篇论文提出了一种无需额外训练、通过滑块就能平滑控制图像编辑强度的方法，它巧妙地将编辑过程分解为保持原图特征的‘保真项’和驱动内容变化的‘导向项’，从而实现既稳定又高质量的连续编辑效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.02265

arXiv 提交日期: 2026-04-02

aigc model training computer vision text-to-image safety control inference-time steering energy-based sampling foundation models

基于模块化能量引导的基础模型安全文本到图像生成 / Modular Energy Steering for Safe Text-to-Image Generation with Foundation Models

1️⃣ 一句话总结

这篇论文提出了一种无需额外训练、在生成过程中实时引导的方法，通过利用现成基础模型的语义反馈来确保文本到图像生成的安全性，同时保持高质量的图像输出。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28114

arXiv 提交日期: 2026-03-30

computer vision model training aigc diffusion models cross-attention frequency modulation training-free control image generation

注意力频率调制：扩散交叉注意力的免训练频谱调制 / Attention Frequency Modulation: Training-Free Spectral Modulation of Diffusion Cross-Attention

1️⃣ 一句话总结

这篇论文提出了一种名为‘注意力频率调制’的新方法，它通过分析并调整AI文生图模型中‘注意力’信号在不同频率上的分布，无需重新训练就能精细地控制生成图像的细节风格和构图，比如让画面更聚焦于整体轮廓或局部细节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.27720

arXiv 提交日期: 2026-03-29

computer vision aigc model training image generation differential query transformer brushstroke prediction adversarial training neural painting

观察、比较与绘制：用于自动油画创作的差分查询变换器 / Look, Compare and Draw: Differential Query Transformer for Automatic Oil Painting

1️⃣ 一句话总结

这篇论文提出了一种新的自动油画生成方法，通过模拟人类“观察、比较、绘制”的创作过程，引入差分图像分析来指导模型关注每一笔的增量效果，从而用更少的笔触生成更逼真、更具艺术感的油画作品。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.27690

arXiv 提交日期: 2026-03-29

multi-modal aigc model training visual storytelling multimodal llm story customization shot-type control benchmark

基于统一多模态大语言模型的定制化视觉故事生成 / Customized Visual Storytelling with Unified Multimodal LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为VstoryGen的多模态框架，它能够根据文字描述、角色形象和背景参考图，并利用镜头类型控制，来生成连贯且符合电影语法的定制化视觉故事，在角色场景一致性、图文对齐和镜头多样性上优于现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25188

arXiv 提交日期: 2026-03-26

video generation aigc multi-modal identity preservation video synthesis reference unification reinforcement learning fine-tuning attribute controllability

AnyID：从任意视觉参考生成超高保真度通用身份保持视频 / AnyID: Ultra-Fidelity Universal Identity-Preserving Video Generation from Any Visual References

1️⃣ 一句话总结

这篇论文提出了一个名为AnyID的新框架，它能利用人脸、肖像或视频等多种形式的身份信息作为参考，生成超高保真度且能精确控制角色属性的定制化视频，解决了以往方法只能依赖单一参考源的限制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25745

arXiv 提交日期: 2026-03-26

computer vision model training aigc 3d gaussian splatting novel view synthesis 4k rendering feed-forward generation textured primitives

更少高斯，更多纹理：4K前馈式纹理化高斯泼溅 / Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting

1️⃣ 一句话总结

这篇论文提出了一种名为LGTM的新方法，它通过预测少量高斯几何基元并给每个基元配上纹理，成功实现了无需逐场景优化就能生成高质量4K新视角图像，解决了现有前馈式方法因基元数量随分辨率暴增而无法处理高分辨率合成的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.04380

1️⃣ 一句话总结

arXiv ID: 2604.04634

1️⃣ 一句话总结

arXiv ID: 2604.04142

1️⃣ 一句话总结

arXiv ID: 2604.02088

1️⃣ 一句话总结

arXiv ID: 2604.02265

1️⃣ 一句话总结

arXiv ID: 2603.28114

1️⃣ 一句话总结

arXiv ID: 2603.27720

1️⃣ 一句话总结

arXiv ID: 2603.27690

1️⃣ 一句话总结

arXiv ID: 2603.25188

1️⃣ 一句话总结

arXiv ID: 2603.25745

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.04380 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04634 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04142 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.02088 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.02265 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28114 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.27720 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.27690 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25188 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25745 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.04380

arXiv ID: 2604.04634

arXiv ID: 2604.04142

arXiv ID: 2604.02088

arXiv ID: 2604.02265

arXiv ID: 2603.28114

arXiv ID: 2603.27720

arXiv ID: 2603.27690

arXiv ID: 2603.25188

arXiv ID: 2603.25745