📄
Abstract - VQ-VA World: Towards High-Quality Visual Question-Visual Answering
This paper studies Visual Question-Visual Answering (VQ-VA): generating an image, rather than text, in response to a visual question -- an ability that has recently emerged in proprietary systems such as NanoBanana and GPT-Image. To also bring this capability to open-source models, we introduce VQ-VA World, a data-centric framework built around an agentic pipeline for large-scale, targeted data construction. Leveraging web-scale deployment, this pipeline crawls a massive amount of ~1.8M high-quality, interleaved image-text samples for model training. For evaluation, we further release IntelligentBench, a human-curated benchmark that systematically assesses VQ-VA along the aspects of world knowledge, design knowledge, and reasoning. Training with VQ-VA World data yields strong empirical gains: it helps LightFusion attain 53.06 on IntelligentBench, substantially surpassing the best prior open-source baselines (i.e., 7.78 from vanilla LightFusion; 1.94 from UniWorld-V1), and significantly narrowing the gap toward leading proprietary systems (e.g., 81.67 from NanoBanana; 82.64 from GPT-Image). By releasing the full suite of model weights, datasets, and pipelines, we hope to stimulate future research on VQ-VA.
VQ-VA World框架:面向视觉问答-视觉回答任务的数据中心化解决方案 /
VQ-VA World: Towards High-Quality Visual Question-Visual Answering
1️⃣ 一句话总结
本文提出了VQ-VA World框架,通过智能数据构建管道收集180万高质量图像-文本样本,并发布IntelligentBench人工策划基准,显著提升了开源模型在视觉问答-视觉回答任务上的性能,缩小了与专有模型的差距。
2️⃣ 论文创新点
1. VQ-VA World数据框架
- 创新点:针对视觉问答-视觉回答任务的去中心化数据构建框架,包含智能数据构建管道
- 区别/改进:解决了开源模型在VQ-VA任务上的数据稀缺问题,自动化生成高质量、多样化的训练数据
- 意义:显著提升了开源模型在VQ-VA任务上的表现,缩小了与专有系统的差距
2. 智能体流水线设计
- 创新点:使用五个独立的视觉语言模型工作者(检索器、过滤器、指令生成器、重写器、推理器)分别处理特定子任务
- 区别/改进:模块化设计提高了处理效率和可扩展性,各智能体通过精心设计的系统提示和思维链推理工作
- 意义:实现了复杂VQ-VA样本的规模化生成,同时保持高质量标准
3. IntelligentBench评估基准
- 创新点:人工策划的VQ-VA能力评估基准,源自真实世界的网页交错文档
- 区别/改进:系统性评估模型在特定知识和推理需求上的表现
- 意义:为VQ-VA任务提供了标准化的评估工具
3️⃣ 主要结果与价值
结果亮点
- LightFusion-World模型在IntelligentBench上达到53.06分,显著超越基线模型的7.78分
- 在RISEBench推理型图像编辑基准上性能与BAGEL-Think相当但所需训练数据远少于后者
- 在标准图像编辑基准上相比LightFusion基线有一致但适度的提升
- 在ImgEdit-Bench多个编辑任务上表现优异,总体得分3.85
实际价值
- 为开源社区在需要世界知识和推理的I2I任务上提供了专门的数据资源
- 证明了高质量、多样化训练数据对于提升模型推理和编辑能力的重要性
- 挑战了依赖海量数据训练的传统范式,展示了数据效率方面的优势
4️⃣ 术语表
- VQ-VA:视觉问答-视觉回答,指根据视觉问题生成图像而非文本回答的能力
- IntelligentBench:人工策划的基准测试,系统评估VQ-VA在世界知识、设计知识和推理方面的表现
- LightFusion-World:在VQ-VA World数据集上微调的模型,在IntelligentBench上达到53.06分
- Agentic Pipeline:由五个独立VLM工作者组成的智能体流水线,负责将过滤后的文档转换为VQ-VA样本
- RISEBench:推理型图像编辑基准,评估模型在时序、因果、空间和逻辑推理方面的能力
- ImgEdit-Bench:图像编辑能力评估基准,包含多种编辑任务