arXiv ID:
2602.16065
arXiv 提交日期: 2026-02-17
生成式人工智能能在数据污染中存活吗?污染递归训练下的理论保证 / Can Generative Artificial Intelligence Survive Data Contamination? Theoretical Guarantees under Contaminated Recursive Training
1️⃣ 一句话总结
这篇论文首次在理论上证明,即使生成式AI模型在训练中混入了自己早期版本产生的数据(即数据污染),只要每次迭代都包含一定比例的真实人类数据,整个递归训练过程最终仍会收敛,而不会完全崩溃。