← 返回列表

菜单

🤖 系统
📄 Abstract - German Commons: A Large-Scale Openly Licensed German Text Corpus
正在获取摘要...
顶级标签: llm
详细标签: multilingual corpus data curation open licensing text preprocessing german nlp 或 搜索:

📄 论文总结

德语公共语料库:大规模开放许可德语文本数据集 / German Commons: A Large-Scale Openly Licensed German Text Corpus


1️⃣ 一句话总结

German Commons是最大的开放许可德语文本语料库,包含1545.6亿标记,覆盖七个领域,通过严格的质量控制和许可验证解决了非英语预训练数据稀缺问题。


2️⃣ 论文创新点

1. 大规模多领域开放语料库

2. 严格许可验证框架

3. 多维度数据处理流程


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF