arXiv最新AI论文速览速学

🔍

标签: #interleaved generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: InterleaveThinker: Reinforcing Agentic Interleaved Generation 06-12

arXiv ID: 2606.13679

arXiv 提交日期: 2026-06-11

multi-modal agents image generation interleaved generation multi-agent pipeline reinforcement learning critic agent text-image sequence

交错思考者：强化智能体式的交错生成能力 / InterleaveThinker: Reinforcing Agentic Interleaved Generation

1️⃣ 一句话总结

本文提出了一个名为InterleaveThinker的多智能体框架，通过规划器与评论家两个智能体的协作，让任何现有的图像生成模型都能自然地生成图文穿插的内容（如连环画或图文教程），并利用强化学习中的逐步奖励机制，在节省计算资源的同时显著提升了生成质量和推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25706

arXiv 提交日期: 2026-03-26

multi-modal model training aigc interleaved generation text-to-image planning visual consistency benchmark

万维编织者：通过解耦训练实现交错式多模态生成 / Wan-Weaver: Interleaved Multi-modal Generation via Decoupled Training

1️⃣ 一句话总结

这篇论文提出了一个名为Wan-Weaver的模型，它通过将复杂的图文交错生成任务分解为文本规划和视觉一致性建模两个独立步骤来训练，从而在没有真实交错数据的情况下，也能生成内容连贯、视觉一致的多模态混合内容。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23500

arXiv 提交日期: 2026-03-24

multi-modal model training reinforcement learning interleaved generation policy optimization reasoning-driven generation flow matching visual synthesis

UniGRPO：面向推理驱动视觉生成的统一策略优化 / UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

1️⃣ 一句话总结

这篇论文提出了一个名为UniGRPO的统一强化学习框架，通过联合优化文本推理和图像生成策略，让AI模型在生成图片前先进行逻辑推理，从而显著提升了图像生成的质量，为未来开发能交替生成文本和图像的复杂模型打下了坚实基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16899

arXiv 提交日期: 2025-12-18

multi-modal benchmark model evaluation reward models multimodal evaluation preference learning interleaved generation llm-as-a-judge

多模态奖励模型基准2：评估交错文本与图像的全能奖励模型 / Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

1️⃣ 一句话总结

这篇论文提出了首个用于评估能同时处理图文交错序列的‘全能奖励模型’的综合基准测试MMRB2，通过四个核心任务测试了当前主流模型的性能，发现最先进的模型如Gemini 3 Pro在判断质量上仍显著落后于人类专家，并揭示了未来奖励模型需要改进的关键方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.05103

arXiv 提交日期: 2025-12-04

video generation multi-modal model training text-to-video interleaved generation reasoning flow matching mixture-of-transformers

TV2TV：一种用于交错式语言与视频生成的统一框架 / TV2TV: A Unified Framework for Interleaved Language and Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为TV2TV的新框架，它通过让AI模型在生成视频过程中穿插‘用文字思考’的步骤，来提升复杂视频的生成质量和可控性，使其能更好地理解和执行用户指令。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.06945

arXiv 提交日期: 2025-09-08

aigc text-to-video model training text-to-image multimodal reasoning interleaved generation visual refinement instruction following

交错推理以改进文本到图像生成 / Interleaving Reasoning for Better Text-to-Image Generation

1️⃣ 一句话总结

这篇论文提出了一种交错推理生成框架，通过交替进行文本思考和图像合成来逐步优化图像细节与质量，显著提升了文本到图像生成的准确性和视觉效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.13679

1️⃣ 一句话总结

arXiv ID: 2603.25706

1️⃣ 一句话总结

arXiv ID: 2603.23500

1️⃣ 一句话总结

arXiv ID: 2512.16899

1️⃣ 一句话总结

arXiv ID: 2512.05103

1️⃣ 一句话总结

arXiv ID: 2509.06945

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.13679 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25706 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23500 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16899 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.05103 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.06945 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.13679

arXiv ID: 2603.25706

arXiv ID: 2603.23500

arXiv ID: 2512.16899

arXiv ID: 2512.05103

arXiv ID: 2509.06945