arXiv ID:
2606.22382
arXiv 提交日期: 2026-06-21
大型语言模型辅助清洗大规模胸部CT数据集中报告衍生标签 / Large Language Model-Assisted Cleaning of Report-Derived Labels in a Large-Scale Chest CT Dataset
1️⃣ 一句话总结
本研究利用GPT-5.4等大型语言模型自动检测并修正了大规模公开胸部CT数据集(CT-RATE)中标签与放射报告不一致的问题,发现模型在绝大多数争议案例中支持语言模型的判断,且多模型投票提升标签质量,最终提供了更干净的公开数据集以支持未来研究。