arXiv ID:
2606.26015
arXiv 提交日期: 2026-06-24
塔塔尔语低资源文本去毒化系统Tatoxa:以塔塔尔语为例 / The Tatoxa System for Text Detoxification in Low-Resource Languages: The Case of Tatar
1️⃣ 一句话总结
本文介绍了Tatoxa——一个专为塔塔尔语设计的文本去毒化系统,通过构建新数据集和模型,在低资源环境下显著优于现有商业及开源模型,并发现直接从塔塔尔语数据训练比借助俄语等跨语言迁移效果更好。