arXiv ID:
2603.10703
WalkGPT:基于深度感知分割的视觉-语言对话模型,用于行人导航 / WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation
1️⃣ 一句话总结
这篇论文提出了一个名为WalkGPT的新模型,它能够理解街景图像,通过结合语言对话和图像分割技术,为行人(特别是行动不便者)提供准确、可靠的导航建议,指出哪些区域安全可通行、哪些存在障碍,并估算相对距离,同时还发布了一个包含大量街景图像和导航问答的数据集来支持相关研究。