arXiv ID:
2606.22478
arXiv 提交日期: 2026-06-21
ROMEVA:面向罗马乌尔都语语言模型的几何保持词汇扩展方法 / ROMEVA: Geometry-Preserving Vocabulary Expansion for Roman Urdu Language Models
1️⃣ 一句话总结
这篇论文针对罗马乌尔都语拼写不规范导致多语言模型分词效率低的问题,提出了一种名为ROMEVA的词汇扩展方法,通过结合子词平均初始化和PCA引导的锚点损失来稳定词嵌入,但实验发现虽然该方法能最好地保留预训练模型的嵌入空间,但在情感分类任务中,简单的微调反而表现更好,说明对于拼写不固定的语言,过度保持原有嵌入可能不如让模型更灵活地适应新词汇。