arXiv最新AI论文速览速学

🔍

aigc ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 38 72小时内新更新论文 72h更新 127 最新: How to Guide Your Flow: Few-Step Alignment via Flow Map Reward Guidance 05-03

arXiv ID: 2512.22118

arXiv 提交日期: 2025-12-26

computer vision model training aigc image editing video editing inversion-based editing attention mechanism latent space manipulation

ProEdit：基于反转的提示编辑的正确实现 / ProEdit: Inversion-based Editing From Prompts Done Right

1️⃣ 一句话总结

这篇论文提出了一种名为ProEdit的新方法，它通过改进图像和视频编辑过程中的注意力机制和潜在特征处理，解决了现有AI编辑工具在根据文字指令修改图片时，常常无法彻底改变物体属性（如姿态、数量或颜色）的问题，从而实现了更准确、更灵活的编辑效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.21734

arXiv 提交日期: 2025-12-25

video generation aigc model training portrait animation autoregressive diffusion real-time generation temporal coherence streaming inference

节点强制：驯服自回归视频扩散模型以实现实时无限交互式肖像动画 / Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation

1️⃣ 一句话总结

这篇论文提出了一种名为“节点强制”的新方法，通过分块生成、重叠区域平滑和前瞻更新机制，解决了现有实时肖像动画模型在连贯性和延迟上的难题，从而能在普通显卡上实现高质量、无限长的流畅互动动画。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.21643

arXiv 提交日期: 2025-12-25

multi-modal model training aigc weather modeling multimodal foundation model causal reasoning chain-of-thought radar encoder

全能天气：用于天气生成与理解的统一多模态基础模型 / Omni-Weather: Unified Multimodal Foundation Model for Weather Generation and Understanding

1️⃣ 一句话总结

这篇论文提出了首个名为‘Omni-Weather’的统一多模态基础模型，它在一个架构内同时处理天气的生成与理解任务，通过共享机制和因果推理数据集，不仅提升了性能，还证明了这两类任务可以相互促进。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.21185

arXiv 提交日期: 2025-12-24

computer vision model training aigc 3d shape generation diffusion models geometric refinement data processing voxel-based generation

UltraShape 1.0：通过可扩展的几何细化生成高保真三维形状 / UltraShape 1.0: High-Fidelity 3D Shape Generation via Scalable Geometric Refinement

1️⃣ 一句话总结

这篇论文提出了一个名为UltraShape 1.0的两阶段三维形状生成框架，它先创建粗略的整体结构，再通过一种新颖的、将空间定位与细节合成分离的扩散方法进行精细化处理，从而利用有限的公开数据生成高质量、细节丰富的三维几何模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.21338

arXiv 提交日期: 2025-12-24

video generation aigc model training high-resolution video computational efficiency diffusion models latent diffusion real-time generation

HiStream：一种高效的高分辨率视频生成框架 / HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming

1️⃣ 一句话总结

本文提出了HiStream框架，通过双分辨率缓存、锚点引导滑动窗口和非对称去噪等核心创新，在保持高视觉质量的同时，显著降低了高分辨率视频生成的计算成本和延迟，实现了高达107.5倍的加速。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.21252

arXiv 提交日期: 2025-12-24

video generation aigc model training one-shot video generation frame-guided generation diffusion transformer long video synthesis preference optimization

DreaMontage：基于任意帧引导的单镜头视频生成框架 / DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

1️⃣ 一句话总结

本文提出了DreaMontage框架，它能够根据用户提供的任意关键帧或视频片段，生成无缝、连贯、高质量的长视频，解决了现有方法在视觉平滑性、时间连贯性和计算效率方面的挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.20292

arXiv 提交日期: 2025-12-23

aigc natural language processing multi-modal presentation generation personalization paper-to-slides user preference agentic framework

SlideTailor：面向科研论文的个性化演示文稿幻灯片生成 / SlideTailor: Personalized Presentation Slide Generation for Scientific Papers

1️⃣ 一句话总结

这篇论文提出了一个名为SlideTailor的智能框架，它能够根据用户提供的一篇论文及其对应的幻灯片示例和一个视觉模板，自动学习并生成符合该用户独特内容和视觉风格偏好的、可编辑的演示文稿幻灯片，从而解决了现有幻灯片生成方法无法满足个性化需求的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.20619

arXiv 提交日期: 2025-12-23

video generation model training aigc semantic space diffusion models two-stage generation computational efficiency video latents

SemanticGen：在语义空间中进行视频生成 / SemanticGen: Video Generation in Semantic Space

1️⃣ 一句话总结

这篇论文提出了一种名为SemanticGen的新方法，它通过先在紧凑的语义空间中进行全局规划，再补充细节来生成视频，从而比现有方法收敛更快、计算效率更高，尤其适合生成长视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.19680

arXiv 提交日期: 2025-12-22

model training computer vision aigc autoregressive generation variational optimization policy alignment image generation tokenizer alignment

VA-π：一种用于像素感知自回归生成的变分策略对齐方法 / VA-$π$: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

1️⃣ 一句话总结

这篇论文提出了一种名为VA-π的轻量级后训练框架，通过将自回归图像生成模型视为一个策略，并直接使用像素空间的重建质量作为奖励来优化它，从而有效解决了现有方法中图像编码器与生成器目标不一致导致图像质量下降的问题，仅需极少数据和极短时间就能显著提升生成图像的逼真度和多样性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.19823

arXiv 提交日期: 2025-12-22

computer vision video generation aigc video diffusion models focal stack generation post-capture refocusing image editing photography enhancement

利用视频扩散模型学习重聚焦 / Learning to Refocus with Video Diffusion Models

1️⃣ 一句话总结

这项研究提出了一种新方法，能够仅凭一张模糊的照片，利用视频扩散模型生成一系列不同焦点的清晰图像，从而实现拍照后灵活调整焦点，并发布了相关数据集以支持未来研究。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.22118

1️⃣ 一句话总结

arXiv ID: 2512.21734

1️⃣ 一句话总结

arXiv ID: 2512.21643

1️⃣ 一句话总结

arXiv ID: 2512.21185

1️⃣ 一句话总结

arXiv ID: 2512.21338

1️⃣ 一句话总结

arXiv ID: 2512.21252

1️⃣ 一句话总结

arXiv ID: 2512.20292

1️⃣ 一句话总结

arXiv ID: 2512.20619

1️⃣ 一句话总结

arXiv ID: 2512.19680

1️⃣ 一句话总结

arXiv ID: 2512.19823

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.22118 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.21734 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.21643 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.21185 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.21338 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.21252 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.20292 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.20619 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.19680 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.19823 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.22118

arXiv ID: 2512.21734

arXiv ID: 2512.21643

arXiv ID: 2512.21185

arXiv ID: 2512.21338

arXiv ID: 2512.21252

arXiv ID: 2512.20292

arXiv ID: 2512.20619

arXiv ID: 2512.19680

arXiv ID: 2512.19823