arXiv ID:
2604.17930
arXiv 提交日期: 2026-04-20
语言模型形式语言能力的异质性:数据真的是瓶颈吗? / Heterogeneity in Formal Linguistic Competence of Language Models: Is Data the Real Bottleneck?
1️⃣ 一句话总结
本文通过向训练数据中仅注入1%的针对性合成文本,发现小型语言模型在大多数原本表现不佳的语法现象上性能大幅提升,表明数据稀缺而非架构缺陷才是主因,但部分顽固语法错误仍无法通过数据增强解决。