arXiv ID:
2607.00890
arXiv 提交日期: 2026-07-01
MultiSynt/MT:跨36种语言的万亿级多平行预训练翻译数据 / MultiSynt/MT: Trillion-Token Multi-Parallel Pre-Training Data Translated Across 36 Languages
1️⃣ 一句话总结
该研究通过翻译1000亿高质量英文文本,构建了包含约4.8万亿个多语言标记的合成平行语料库MultiSynt/MT,覆盖36种欧洲语言,实验表明使用该数据的语言模型在训练量减少72%的情况下仍能达到与原生数据相同的性能,并揭示了现有多语言评估基准在检测翻译质量和文化适应性方面的盲点。