arXiv ID:
2604.18134
arXiv 提交日期: 2026-04-20
大语言模型生成的文本能否赋能外科手术视觉-语言预训练? / Can LLM-Generated Text Empower Surgical Vision-Language Pre-training?
1️⃣ 一句话总结
这篇论文提出了一个名为SurgLIME的新方法,它利用大语言模型自动生成的手术视频描述文本(而非昂贵的人工标注)来训练视觉-语言模型,并通过创新的技术手段有效过滤文本中的错误信息,从而在降低标注成本的同时,保证了模型对外科手术视频的理解和推理能力。