arXiv ID:
2510.13996
arXiv 提交日期: 2025-10-15
德国公共资源库——为德语语言模型提供的1540亿个开放许可文本标记 / The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models
1️⃣ 一句话总结
这篇论文构建了迄今为止最大的开放许可德语文本数据集,包含1540亿个高质量文本标记,解决了德语语言模型开发中公开数据稀缺的问题,并提供了可复现的数据处理工具。