arXiv ID:
2602.12002
arXiv 提交日期: 2026-02-12
本地视觉语言模型能否超越视觉Transformer提升活动识别能力?——以新生儿复苏为例的研究 / Can Local Vision-Language Models improve Activity Recognition over Vision Transformers? -- Case Study on Newborn Resuscitation
1️⃣ 一句话总结
这项研究发现,通过LoRA方法微调的小型本地视觉语言模型,在识别新生儿复苏视频中的精细活动时,其准确性可以显著超越传统的视觉Transformer模型,为解决临床实践中的活动记录难题提供了新思路。