VQ-VA World: Towards High-Quality Visual Question-Visual Answering

📄 Abstract - VQ-VA World: Towards High-Quality Visual Question-Visual Answering

This paper studies Visual Question-Visual Answering (VQ-VA): generating an image, rather than text, in response to a visual question -- an ability that has recently emerged in proprietary systems such as NanoBanana and GPT-Image. To also bring this capability to open-source models, we introduce VQ-VA World, a data-centric framework built around an agentic pipeline for large-scale, targeted data construction. Leveraging web-scale deployment, this pipeline crawls a massive amount of ~1.8M high-quality, interleaved image-text samples for model training. For evaluation, we further release IntelligentBench, a human-curated benchmark that systematically assesses VQ-VA along the aspects of world knowledge, design knowledge, and reasoning. Training with VQ-VA World data yields strong empirical gains: it helps LightFusion attain 53.06 on IntelligentBench, substantially surpassing the best prior open-source baselines (i.e., 7.78 from vanilla LightFusion; 1.94 from UniWorld-V1), and significantly narrowing the gap toward leading proprietary systems (e.g., 81.67 from NanoBanana; 82.64 from GPT-Image). By releasing the full suite of model weights, datasets, and pipelines, we hope to stimulate future research on VQ-VA.

VQ-VA World框架：面向视觉问答-视觉回答任务的数据中心化解决方案 / VQ-VA World: Towards High-Quality Visual Question-Visual Answering

1️⃣ 一句话总结

本文提出了VQ-VA World框架，通过智能数据构建管道收集180万高质量图像-文本样本，并发布IntelligentBench人工策划基准，显著提升了开源模型在视觉问答-视觉回答任务上的性能，缩小了与专有模型的差距。

2️⃣ 论文创新点

1. VQ-VA World数据框架

创新点：针对视觉问答-视觉回答任务的去中心化数据构建框架，包含智能数据构建管道
区别/改进：解决了开源模型在VQ-VA任务上的数据稀缺问题，自动化生成高质量、多样化的训练数据
意义：显著提升了开源模型在VQ-VA任务上的表现，缩小了与专有系统的差距

2. 智能体流水线设计

创新点：使用五个独立的视觉语言模型工作者（检索器、过滤器、指令生成器、重写器、推理器）分别处理特定子任务
区别/改进：模块化设计提高了处理效率和可扩展性，各智能体通过精心设计的系统提示和思维链推理工作
意义：实现了复杂VQ-VA样本的规模化生成，同时保持高质量标准

3. IntelligentBench评估基准

创新点：人工策划的VQ-VA能力评估基准，源自真实世界的网页交错文档
区别/改进：系统性评估模型在特定知识和推理需求上的表现
意义：为VQ-VA任务提供了标准化的评估工具

3️⃣ 主要结果与价值

结果亮点

LightFusion-World模型在IntelligentBench上达到53.06分，显著超越基线模型的7.78分
在RISEBench推理型图像编辑基准上性能与BAGEL-Think相当但所需训练数据远少于后者
在标准图像编辑基准上相比LightFusion基线有一致但适度的提升
在ImgEdit-Bench多个编辑任务上表现优异，总体得分3.85

实际价值

为开源社区在需要世界知识和推理的I2I任务上提供了专门的数据资源
证明了高质量、多样化训练数据对于提升模型推理和编辑能力的重要性
挑战了依赖海量数据训练的传统范式，展示了数据效率方面的优势

4️⃣ 术语表

VQ-VA：视觉问答-视觉回答，指根据视觉问题生成图像而非文本回答的能力
IntelligentBench：人工策划的基准测试，系统评估VQ-VA在世界知识、设计知识和推理方面的表现
LightFusion-World：在VQ-VA World数据集上微调的模型，在IntelligentBench上达到53.06分
Agentic Pipeline：由五个独立VLM工作者组成的智能体流水线，负责将过滤后的文档转换为VQ-VA样本
RISEBench：推理型图像编辑基准，评估模型在时序、因果、空间和逻辑推理方面的能力
ImgEdit-Bench：图像编辑能力评估基准，包含多种编辑任务

← 返回列表

菜单

🤖 AI 深度阅读

1️⃣ 一句话总结

2️⃣ 论文创新点

1. VQ-VA World数据框架

2. 智能体流水线设计

3. IntelligentBench评估基准

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

🤖 AI 深度阅读

1️⃣ 一句话总结

2️⃣ 论文创新点

1. VQ-VA World数据框架

2. 智能体流水线设计

3. IntelligentBench评估基准

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要