arXiv ID:
2602.19548
arXiv 提交日期: 2026-02-23
超越单一提取器:重新思考用于大语言模型预训练的HTML到文本提取方法 / Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining
1️⃣ 一句话总结
这篇论文研究发现,在构建大语言模型预训练数据集时,对所有网页使用单一的文本提取方法会浪费大量有用内容,而结合多种提取器能显著增加数据量并提升模型在表格、代码等结构化任务上的表现。