arXiv ID:
2604.11025
arXiv 提交日期: 2026-04-13
测试时感知扩展:解决“图像思维”中的定位悖论 / Test-time Scaling over Perception: Resolving the Grounding Paradox in Thinking with Images
1️⃣ 一句话总结
这篇论文提出了一种名为TTSP的新方法,通过让AI模型在推理时像人类一样“多角度观察、筛选信息、整合知识并聚焦疑点”,有效解决了现有多模态模型在需要精细视觉推理时面临的“先看哪里”的决策困境,从而显著提升了其理解和分析复杂图像的能力。