arXiv ID:
2603.23190
arXiv 提交日期: 2026-03-24
用于第一人称行为理解的视线正则化视觉语言模型 / Gaze-Regularized VLMs for Ego-Centric Behavior Understanding
1️⃣ 一句话总结
这项研究提出了一种将人眼视线信息融入视觉语言模型的新方法,通过让模型学习并模仿人的注意力模式,显著提升了模型在第一人称视角下预测未来行为和描述动作细节的能力。