arXiv ID:
2605.15198
arXiv 提交日期: 2026-05-14
ATLAS:代理型还是潜在视觉推理?一个词足矣 / ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both
1️⃣ 一句话总结
本文提出ATLAS框架,通过引入一种称为“功能词”的特殊离散词元,将代理型推理(通过代码或工具调用)与潜在推理(通过隐式嵌入)的优势结合,无需生成中间图像或修改模型结构,从而高效、可解释地完成复杂视觉推理任务,并配合一种稳定强化学习训练的新方法LA-GRPO,在多个基准测试中取得了领先性能。