arXiv ID:
2606.24828
arXiv 提交日期: 2026-06-23
少即是多:面向科学摘要的质量感知训练数据选择 / Less is More: Quality-Aware Training Data Selection for Scientific Summarization
1️⃣ 一句话总结
该论文通过构建并公开一个包含188万篇论文的大型生物医学数据集,发现作者自写的摘要与原文的对齐质量参差不齐,并证明相比随机选取大量数据,只选择高质量摘要作为训练数据能更高效地提升科学文献自动摘要的准确性。