arXiv ID:
2603.24584
arXiv 提交日期: 2026-03-25
TAG:视觉-语言-动作模型中用于稳定目标无关对象中心推理的引导方法 / TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models
1️⃣ 一句话总结
这篇论文提出了一种名为TAG的简单推理时引导方法,通过对比原始观察和抹除目标物体后观察的预测差异,来增强机器人视觉-语言-动作模型在复杂杂乱场景中准确识别和操作目标物体的能力,而无需修改模型结构。