arXiv ID:
2604.07034
arXiv 提交日期: 2026-04-08
KITE:基于视觉语言模型的机器人故障分析之关键帧索引与标记化证据框架 / KITE: Keyframe-Indexed Tokenized Evidence for VLM-Based Robot Failure Analysis
1️⃣ 一句话总结
这篇论文提出了一种名为KITE的免训练方法,它能将冗长的机器人操作视频自动浓缩成一组包含关键动作画面和物体布局示意图的简洁、可解释的“证据包”,从而让通用视觉语言模型能更准确、高效地分析机器人任务中的故障类型、位置和原因。