学习有效压缩大数据的强大技术
介绍
在数据科学中,相似性搜索经常出现在 NLP 领域、搜索引擎或推荐系统中,其中需要检索最相关的文档或项目以进行查询。有多种不同的方法可以提高海量数据的搜索性能。
在本系列文章的第一部分中,我们研究了用于执行相似性搜索的 kNN 和倒排文件索引结构。正如我们所知,kNN 是最直接的方法,而倒排文件索引则在其之上发挥作用,建议在速度加速和准确性之间进行权衡。然而,这两种方法都不使用数据压缩技术,这可能会导致内存问题,特别是在数据集较大且 RAM 有限的情况下。在本文中,我们将尝试通过研究另一种称为“乘积量化(Product Quantization)”的方法来解决此问题。