arXiv ID:
2606.03954
arXiv 提交日期: 2026-06-02
VLESA:面向人类活动监测的视觉语言具身安全代理 / VLESA: Vision-Language Embodied Safety Agent for Human Activity Monitoring
1️⃣ 一句话总结
该论文提出了一种名为VLESA的智能安全监控框架,它能通过分析第一人称视频来实时识别人类即将做出的危险动作,并智能区分同一动作在不同意图下的安全性(例如切菜时刀是安全的,但指向人则危险),从而在关键时刻触发安全干预,大幅提升具身AI系统在物理世界中的安全性。