相似性搜索(similarity-search)是给定一个查询,目标是在所有数据库文档中找到与其最相似的文档。本章介绍 kNN 的相似性搜索及其使用倒排文件的加速。
介绍
在数据科学中,相似性搜索经常出现在 NLP 领域、搜索引擎或推荐系统中,其中需要检索最相关的文档或项目以进行查询。通常,文档或项目以文本或图像的形式表示。然而,机器学习算法不能直接处理原始文本或图像,这就是为什么文档和项目通常被预处理并存储为数字向量的原因。
有时向量的每个分量都可以存储语义。在这种情况下,这些表示也称为嵌入。这样的嵌入可以有数百个维度,数量可以达到数百万个!由于数量如此庞大,任何信息检索系统都必须能够快速检测相关文档。
在机器学习中,向量也称为对象或点。