arXiv ID:
2605.02083
arXiv 提交日期: 2026-05-03
可编辑科学手稿中的事实性编辑传播评测基准 / EditPropBench: Measuring Factual Edit Propagation in Scientific Manuscripts
1️⃣ 一句话总结
本论文提出了一个名为EditPropBench的评测基准,用于衡量大型语言模型(LLM)在修改科学手稿中的某个事实性数据(如数字、规模描述)后,是否能自动地、连贯地更新手稿中所有依赖该数据的相关描述(例如,当数据从215变为80时,能否自动将“中等规模”改为“小规模”),实验发现即使最先进的LLM编辑器也会遗漏约30%的必要连锁更新。