arXiv ID:
2605.20602
arXiv 提交日期: 2026-05-20
自我训练并不会使语言扁平化——它会重构语言:表层标记增强,深层句法消亡 / Self-Training Doesn't Flatten Language -- It Restructures It: Surface Markers Amplify While Deep Syntax Dies
1️⃣ 一句话总结
这篇论文发现,当语言模型反复用自己的输出进行自我训练时,语言并不会均匀地变单调,而是会发生不对称的重构:像连接词、语气词和破折号这类浅层语言特征会越来越多,而像疑问句、插入语、被动语态和虚拟语气这类深层句法结构则会迅速消失,作者将这种现象称为“结构深度假说”,即语言特征的衰退速度主要取决于它所需的嵌套语法层数。