arXiv ID:
2603.05314
arXiv 提交日期: 2026-03-05
PersianPunc:一个用于波斯语标点恢复的大规模数据集及基于BERT的方法 / PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration
1️⃣ 一句话总结
这篇论文创建了一个大规模高质量的波斯语标点恢复数据集,并提出了一个高效的基于BERT的模型,该模型在性能上优于大语言模型,解决了后者在标点恢复中容易过度修改和计算成本高的问题,为波斯语等资源匮乏语言的处理提供了实用方案。