arXiv ID:
2605.17775
arXiv 提交日期: 2026-05-18
大规模(百万级)合成临床笔记由大语言模型改写后的质量系统性评估 / Systematic Evaluation of the Quality of Synthetic Clinical Notes Rephrased by LLMs at Million-Note Scale
1️⃣ 一句话总结
本研究在百万份临床笔记规模上,从内部质量、实用性和事实准确性三个维度系统评估了大语言模型改写合成的临床文本,发现这些文本保留了大粒度任务的临床信息和预测能力,但会丢失精细信息(如ICD编码),通过分块改写可缓解这一损失但会降低事实精度,最终证明了合成笔记虽不针对特定任务,却能有效增强罕见ICD编码的训练数据。