arXiv ID:
2605.27916
arXiv 提交日期: 2026-05-27
OphIn-500K:从网络规模视觉指令中构建眼科多模态大语言模型 / OphIn-500K: Curating Web-Scale Visual Instructions for Scaling Ophthalmic Multimodal Large Language Models
1️⃣ 一句话总结
本文提出了一种名为OphIn-Engine的自动化流水线,从网络上的眼科手术视频中提取并生成超过50万条高质量训练指令,并基于此构建了眼科专用多模态大模型OphIn-VL,在临床对话和视觉理解任务上显著优于现有通用与专业医疗模型。