RAG向量数据库原理与常⽤向量库！

月伴飞鱼2025-08-232025-09-26

为什么需要向量数据库？

向量数据库的核⼼在于其能够基于向量之间的相似性，快速、精确地定位和检索数据。

比如你的目标是了解书籍之间的推荐关系，或者探索作者之间的合作网络，图数据库可以高效存储和查询这些复杂的关系数据。

如果你希望找到与某本书内容相似的书籍，比如基于主题、⻛格等特征进行相似性搜索。

向量数据库则能够通过计算书籍内容语义在向量空间中的距离，为你提供语义最相关的数据信息。

向量数据库的核心在于其能够基于向量之间的相似性，快速、精确地定位和检索数据。

向量数据库是如何工作的？

向量数据库是一种专⻔用于存储和检索多维向量的数据库类型，与传统的基于行列结构的数据库不同。

它主要处理高维空间中的数据点。

传统数据库通常处理字符串、数字等标量数据，并通过精确匹配来查询数据。

然而，向量数据库的操作逻辑则是基于相似性搜索。

即在查询时，应用特定的相似性度量（如余弦相似度、欧几里得距离等）来查找与查询向量最相似的向量。

向量数据库的核心在于其高效的索引和搜索机制：

为了优化查询性能，它采用了如哈希、量化和基于图形的多种算法。

这些算法通过构建如层次化可导航小世界（HNSW）图、产品量化（PQ）和位置敏感哈希（LSH）等索引结构。

显著提升了查询速度。

这种搜索过程并非追求绝对精确，而是通过近似最近邻（ANN）算法在速度与准确性之间进行权衡，从而实现快速响应。

向量数据库的索引结构可以理解为一种预处理步骤：

类似于为图书馆中的书籍编制索引，方便快速找到所需内容。

HNSW图通过在多层结构中将相似向量连接在一起，快速缩小搜索范围。

PQ则通过压缩高维向量，减少内存占用并加速检索，而LSH则通过哈希函数将相似向量聚集在一起，便于快速定位。

向量数据库的搜索机制不是追求精确匹配：

而是通过近似最近邻（ANN）算法在速度与准确性之间找到最佳平衡。

ANN算法通过允许一定程度的误差，在显著提高搜索速度的同时，依然能够找到与查询相似度较高的向量。

这种策略对于需要实时、高精度响应的应用场景尤为重要。

向量数据库的工作流程涵盖了从数据处理、向量化、向量存储、向量索引到最终检索的全链条操作。

确保在复杂的数据环境中实现高效的存储、索引和相似性搜索。

具体流程如下：

数据处理与向量化原始数据首先被处理并转化为向量嵌入。

这一步通过嵌入模型实现，模型利用深度学习算法提取数据的语义特征，生成适合后续处理的高维向量表示。

向量存储转化后的向量嵌入存储在数据库中。

这一环节确保数据在高效检索的同时，能够以优化的方式管理和维护存储资源，以适应不同规模和复杂度的应用需求。

向量索引存储的向量嵌入需要经过索引处理，以便在后续查询中快速定位相关数据。

索引过程通过构建特定的结构，使得数据库能够在大规模数据集上实现高效的查询响应。

向量搜索在接收到查询后，数据库通过已建立的索引结构执行相似性搜索，找出与查询向量最为接近的数据点。

这一阶段的重点在于平衡搜索的速度与准确性，确保在大数据环境下提供快速且相关的查询结果。

常⻅的向量搜索方法包括余弦相似度、欧几里得距离和曼哈顿距离。

其中，余弦相似度主要用于文本处理和信息检索，关注向量之间的⻆度，以捕捉语义相似性。

欧几里得距离：测量向量之间的实际距离，适用于密集特征集的聚类或分类。

曼哈顿距离：通过计算笛卡尔坐标中的绝对差值之和，适用于稀疏数据的处理。

数据检索最后，数据库从匹配的向量中检索出对应的原始数据，并根据特定的需求进行必要的后处理。

这一步骤确保最终结果能够准确反映用户的查询意图，并提供有意义的输出。

常用向量数据库

对于需要快速开发和轻量化部署的项目，Chroma、Qdrant是不错的选择。

而对于追求高性能和可扩展性的企业级应用，可以考虑 Milvus/Zilliz。

FAISS 是适合对性能有极致要求、不要求持久化和数据管理的场景。

Weaviate、LanceDB 在处理多模态数据方面表现突出，适用于需要管理多种数据类型（如图像、文本、音频等）的 AI 应用。

如果需要无缝集成现有数据库并进行向量搜索，PGVector、Elasticsearch、Redis是理想的方案。

而不希望管理基础设施的用户则可以选择 Pinecone这样的全托管服务。