所有课程

向量数据库与语义搜索实现

章节 1: 向量嵌入与向量空间

从数据到向量：回顾

嵌入模型概述

理解向量维度

降维技术概述

测量向量空间中的相似度

动手实践：生成与比较嵌入

第 1 章测验

章节 2: 向量数据库介绍

什么是向量数据库？

核心架构组成部分

数据模型与数据结构定义

向量操作：CRUD

元数据过滤

实践操作：向量数据库基本交互

第 2 章测验

章节 3: 近似最近邻 (ANN) 搜索

近似的需求

ANN 的核心思想

算法概览：HNSW

算法概述：IVF

算法概述：LSH

索引参数与调优

评估 ANN 性能

动手实践：调整索引参数的试验

第 3 章测验

章节 4: 构建语义搜索系统

语义搜索与关键词搜索再比较

语义搜索流程的架构

数据准备与分块处理

查询处理与向量化

结果排序与再排序

实现混合搜索

评估语义搜索相关性

动手实践：设计搜索查询流程

第 4 章测验

章节 5: 向量数据库的应用实践

选择向量数据库平台

使用 Pinecone 客户端

使用 Weaviate 客户端

使用 Milvus 客户端

使用 ChromaDB 客户端

高效索引大型数据集

监控与维护

动手实践：构建小型语义搜索应用

第 5 章测验

理解向量维度

这部分内容有帮助吗？

参考文献

The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Trevor Hastie, Robert Tibshirani, and Jerome Friedman, 2009 (Springer) - 第7章“模型评估与选择”和第17章“高维问题：p >> N”解释了高维数据带来的挑战，包括稀疏性和计算成本。
Distance Concentration in High Dimensions and its Implications for Nearest Neighbor Search, K. S. Beyer, R. Goldstein, R. Ramakrishnan, and U. Shaft, 1999 Proceedings of the 1999 ACM SIGMOD International Conference on Management of Data (ACM) DOI: 10.1145/304181.304188 - 本文解释了距离集中现象，即在高维空间中点之间的距离区分度降低，这直接影响相似性搜索。
Vector Databases: A Guide to Enterprise Applications, Mark Palmer, Alexandru C. Ioan, 2023 (O'Reilly Media) - 本书讨论了向量维度对向量数据库系统中存储、计算成本和搜索性能的实际影响。
Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Daniel Jurafsky and James H. Martin, 2025 - 关于词嵌入的章节（例如第三版草案的第6章）讨论了嵌入的属性和维度选择，强调了NLP任务的权衡。

© 2026 ApX Machine Learning用心打造