arXiv最新AI论文速览速学

🔍

标签: #visual generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: Bridging Modal Isolation in Interleaved Thinking: Supervising Modality Transitions via Stepwise Reinforcement 06-12

arXiv ID: 2606.12886

arXiv 提交日期: 2026-06-11

multi-modal reinforcement learning model training interleaved reasoning modality transition visual generation cross-modal coherence reinforcement learning

跨越交错推理中的模态隔离：通过逐步强化监督模态转换 / Bridging Modal Isolation in Interleaved Thinking: Supervising Modality Transitions via Stepwise Reinforcement

1️⃣ 一句话总结

本文提出了一种名为MoTiF的训练框架，通过在文本和图像之间每次转换时进行直接监督，解决了多模态模型在长链条推理中图文信息相互脱离的问题，从而显著提升模型的跨模态一致性和任务准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.05031

arXiv 提交日期: 2026-06-03

computer vision agents aigc spatial control positional encoding compositional generation visual generation

MetaPoint：解锁智能体视觉生成中的精确空间控制 / MetaPoint: Unlocking Precise Spatial Control in Agentic Visual Generation

1️⃣ 一句话总结

本文提出MetaPoint方法，通过将连续二维坐标表示为一个特殊标记，在不改变模型架构的前提下，实现了对图像中物体位置和边框的像素级精确控制，从而为智能体视觉生成和交互式编辑提供了简单、可扩展的空间控制基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.15196

arXiv 提交日期: 2026-05-14

computer vision video generation aigc video decoder conditional decoding reference-conditioned latent diffusion visual generation

RefDecoder：通过条件视频解码增强视觉生成 / RefDecoder: Enhancing Visual Generation with Conditional Video Decoding

1️⃣ 一句话总结

这篇论文提出了一种名为RefDecoder的新方法，通过在视频生成模型的解码阶段引入参考图像信息，显著提升了生成视频的细节清晰度和与输入图像的一致性，且无需额外训练即可直接应用于现有系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24953

arXiv 提交日期: 2026-04-27

computer vision model training data preference optimization visual generation dataset quality diffusion models scaling

ViPO：大规模视觉偏好优化 / ViPO: Visual Preference Optimization at Scale

1️⃣ 一句话总结

本文提出了一套系统方案来提升视觉生成模型的偏好优化效果：一方面设计了一种自适应算法（Poly-DPO），能在存在噪声和偏好冲突的现有数据集上稳健学习；另一方面构建了一个高质量、大规模的新数据集（ViPO），包含百万级高分辨率图像和视频对，从而验证了数据质量才是扩展视觉偏好优化的关键，而复杂优化算法仅在数据不完美时才显现优势。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19234

arXiv 提交日期: 2026-04-21

reinforcement learning computer vision video generation grpo reward credit assignment diffusion models multi-objective optimization visual generation

学习为正确的步骤分配功劳：面向目标的视觉生成过程优化 / Learning to Credit the Right Steps: Objective-aware Process Optimization for Visual Generation

1️⃣ 一句话总结

本文提出了一种名为OTCA的框架，通过将多个奖励信号（如图像质量、运动一致性）按去噪步骤的重要性进行分解和自适应分配，从而让强化学习训练更精准地指导视觉生成模型，显著提升图像和视频的生成质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02681

arXiv 提交日期: 2026-03-03

agents multi-modal model training visual generation agentic model end-to-end learning benchmark reinforcement learning

VisionCreator：一个具备理解、思考、规划和创造能力的原生视觉生成智能体模型 / VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

1️⃣ 一句话总结

这篇论文提出了一个名为VisionCreator的新型智能体模型，它通过一个端到端的可学习框架，将理解、思考、规划和创造能力融为一体，能够自主完成复杂的视觉内容创作任务，并且在多项测试中表现优于更大的闭源模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11144

arXiv 提交日期: 2026-02-11

multi-modal model evaluation benchmark fluid intelligence visual generation context comprehension evaluation suite multimodal reasoning

GENIUS：生成式流体智能评估套件 / GENIUS: Generative Fluid Intelligence Evaluation Suite

1️⃣ 一句话总结

这篇论文提出了一个名为GENIUS的新评估标准，旨在测试AI模型在遇到全新、未见过的情境时，能否像人类一样灵活推理、归纳规律并创造新内容，而不仅仅是依赖已有的知识库，结果发现当前主流模型在这方面的能力仍有明显不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04361

arXiv 提交日期: 2026-02-04

computer vision model training model evaluation sparse attention autoregressive models inference acceleration visual generation high-resolution images

SparVAR：探索视觉自回归建模中的稀疏性以实现免训练加速 / SparVAR: Exploring Sparsity in Visual AutoRegressive Modeling for Training-Free Acceleration

1️⃣ 一句话总结

这篇论文提出了一种名为SparVAR的免训练加速框架，它通过利用视觉自回归模型注意力机制中的稀疏特性，在不跳过高分辨率细节的情况下，显著提升了高分辨率图像生成的速度，同时保持了图像质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.19834

arXiv 提交日期: 2026-01-27

multi-modal theory model evaluation visual generation world models chain-of-thought multimodal reasoning evaluation suite

视觉生成通过多模态世界模型解锁类人推理 / Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

1️⃣ 一句话总结

这篇论文通过理论和实验证明，在涉及物理和空间等需要丰富先验知识的任务中，结合视觉生成与语言推理的多模态世界模型，比纯语言模型能更有效地模拟人类认知，实现更强大的类人智能推理。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03534

arXiv 提交日期: 2025-12-03

text-to-video model evaluation natural language processing prompt engineering inference-time scaling visual generation factual correction alignment evaluation

重新思考文本到视觉生成中推理时扩展的提示设计 / Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation

1️⃣ 一句话总结

这篇论文提出了一个名为PRIS的新框架，它通过在生成过程中动态分析和修改文本提示来改进AI图像和视频的生成质量，而不是像传统方法那样只增加生成次数，从而更有效地将用户意图与生成结果对齐。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.12886

1️⃣ 一句话总结

arXiv ID: 2606.05031

1️⃣ 一句话总结

arXiv ID: 2605.15196

1️⃣ 一句话总结

arXiv ID: 2604.24953

1️⃣ 一句话总结

arXiv ID: 2604.19234

1️⃣ 一句话总结

arXiv ID: 2603.02681

1️⃣ 一句话总结

arXiv ID: 2602.11144

1️⃣ 一句话总结

arXiv ID: 2602.04361

1️⃣ 一句话总结

arXiv ID: 2601.19834

1️⃣ 一句话总结

arXiv ID: 2512.03534

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.12886 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.05031 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.15196 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24953 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19234 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02681 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11144 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04361 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.19834 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03534 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.12886

arXiv ID: 2606.05031

arXiv ID: 2605.15196

arXiv ID: 2604.24953

arXiv ID: 2604.19234

arXiv ID: 2603.02681

arXiv ID: 2602.11144

arXiv ID: 2602.04361

arXiv ID: 2601.19834

arXiv ID: 2512.03534