arXiv ID:
2601.13251
arXiv 提交日期: 2026-01-19
超越余弦相似度:在一个包含1500万节点的土耳其语同义词图中驯服语义漂移和反义词入侵 / Beyond Cosine Similarity: Taming Semantic Drift and Antonym Intrusion in a 15-Million Node Turkish Synonym Graph
1️⃣ 一句话总结
这篇论文提出了一种新方法,通过构建大规模标注数据集、设计专门的语义关系判别器以及创新的软到硬聚类算法,成功解决了词向量模型难以区分同义词和反义词的难题,并为一个包含1500万词汇的土耳其语系统生成了290万个高精度的语义集群。