arXiv ID:
2604.23948
arXiv 提交日期: 2026-04-27
KOMBO:基于子字符组合规则的韩文字符表示方法 / KOMBO: Korean Character Representations Based on the Combination Rules of Subcharacters
1️⃣ 一句话总结
本文提出KOMBO框架,首次将韩文(Hangeul)的造字原理融入预训练语言模型,通过分解字符为子字符(如初声、中声、终声)来更准确地捕捉韩语的构词规律,在多项自然语言理解任务上平均性能提升2.11%,证明子字符表示优于传统子词方法。