arXiv ID:
2607.01601
arXiv 提交日期: 2026-07-02
SemHash-LLM:一种多粒度语义哈希框架用于文档去重 / SemHash-LLM: A Multi-Granularity Semantic Hashing Framework for Document Deduplication
1️⃣ 一句话总结
本文提出了一种名为SemHash-LLM的文档去重框架,通过融合字符、词元和文档级别的语义哈希技术,并结合大语言模型进行少量关键判断,在大规模语料库中实现既高效又准确的重复文档检测,且仅需不到1%的神经网络验证成本。