arXiv ID:
2606.09142
通过视觉语言模型从第一人称视角解码行人过街意图 / Decoding Pedestrian Crossing Intention from Egocentric Vision via Vision Language Models
1️⃣ 一句话总结
本研究利用视觉语言模型分析第一人称视角的短视频,通过将其转化为问答任务来预测行人是否要过马路,并发现微调后的模型比零样本方法和传统模型更准确,结合自身运动、车辆运动和视线等额外信息后,准确率可提升14.5%。