arXiv ID:
2604.20319
arXiv 提交日期: 2026-04-22
SurgCoT:通过思维链基准推动手术视频中的时空推理 / SurgCoT: Advancing Spatiotemporal Reasoning in Surgical Videos through a Chain-of-Thought Benchmark
1️⃣ 一句话总结
该论文提出了SurgCoT,一个专门用于评估多模态大语言模型在手术视频中进行时空推理能力的基准数据集,通过结构化思维链框架和精细标注,揭示了当前模型在因果推理、动作对齐等关键维度上的显著不足。