arXiv ID:
2512.08511
arXiv 提交日期: 2025-12-09
自调用思维链:一种用于高效视觉推理的新型代理协调范式 / Thinking with Images via Self-Calling Agent
1️⃣ 一句话总结
本文提出了一种名为自调用思维链(sCoT)的新型视觉推理范式,通过将复杂的跨模态推理任务重构为由主代理协调的纯语言原子子任务序列,并利用强化学习进行端到端优化,显著降低了训练成本并提升了模型在高分辨率视觉任务上的推理性能。