🤖 系统
11-30 17:41
📄 论文总结
德国公共资源库——为德语语言模型提供的1540亿个开放许可文本标记 / The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models
1️⃣ 一句话总结
这篇论文构建了迄今为止最大的开放许可德语文本数据集,包含1540亿个高质量文本标记,解决了德语语言模型开发中公开数据稀缺的问题,并提供了可复现的数据处理工具。