arXiv ID:
2606.24758
arXiv 提交日期: 2026-06-23
CANDLE:基于轻量编码器的阿拉伯语字符级噪声去重方法 / CANDLE: Character-level Arabic Noise Deduplication using Lightweight Encoder
1️⃣ 一句话总结
本文提出一种名为CANDLE的轻量级系统,利用连接主义时间分类(CTC)模型自动识别并消除阿拉伯语文本中因社交网络习惯而重复的字符,不使用任何人工规则或词典,并能通过模型压缩将处理速度提升三倍,同时使阿拉伯语大语言模型的词元切分效率最高提升12.8%。