Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeff Ullman, 2020 (Cambridge University Press) - 这本广受认可的教材对切片(shingling)、Jaccard相似度、MinHash和局部敏感哈希(LSH)进行了全面阐述,这些是大型数据集中检测近重复项的核心方法。
Detecting Near-Duplicates for Web Crawling, Andrei Z. Broder, Steven C. Glassman, Mark S. Manasse, Geoffrey Zweig, 2000Proceedings of the 5th International Conference on World Wide Web (ACM)DOI: 10.1145/336796.337050 - 这篇开创性论文介绍了MinHash及其在高效识别近重复文档中的应用,这是管理大型网络抓取语料库中冗余的关键一步,与LLM数据流水线高度相关。