arXiv ID:
2606.12047
arXiv 提交日期: 2026-06-10
基于元数据感知的多提示推理实现零样本事故理解 / Metadata-Aware Multi-Prompt Reasoning for Zero-Shot Accident Understanding
1️⃣ 一句话总结
本论文提出一种三阶段方法,将监控视频中的事故理解分解为“何时发生”(时间定位)、“什么类型”(语义分类)和“何处发生”(空间定位)三个子任务,通过结合视觉-语言模型和元数据驱动的多角度提示推理,在零样本条件下显著提升了事故检测的准确性和可靠性。