arXiv ID:
2603.14563
多语言微型故事:一个用于训练小型语言模型的印度语儿童故事合成组合语料库 / Multilingual TinyStories: A Synthetic Combinatorial Corpus of Indic Children's Stories for Training Small Language Models
1️⃣ 一句话总结
这篇论文创建了一个包含17种印度语言、由超过13万篇儿童故事组成的大型合成数据集,专门用于训练和评估资源匮乏语言的小型语言模型,以解决这些语言高质量训练数据稀缺的问题。