arXiv ID:
2604.24002
IntentVLM:通过视频-语言模型的前向-逆向建模实现开放词汇意图识别 / IntentVLM: Open-Vocabulary Intention Recognition through Forward-Inverse Modeling with Video-Language Models
1️⃣ 一句话总结
该论文提出了一种名为IntentVLM的视频-语言框架,通过模拟人类认知中的“先设想目标、再反向推理”的两步过程,让机器人能更准确地理解人类在视频中表达的复杂意图,并在多个测试中达到接近人类的水平。