Milvus 向量数据库快速入门

一、什么是 Milvus？

Milvus 是一款开源的向量数据库，用于存储、管理和检索高维向量数据。它适合构建各种 AI 场景下的向量检索系统，如推荐、图像搜索、问答系统等。

概念关系图（逻辑结构）

1Milvus数据库
2├── Collection集合
3│   ├── Partition分区
4│   │   └── Entity实体
5│   │       └── Fields字段（向量 + 元数据）
6│   ├── Schema结构
7│   └── Index索引
8├── 查询操作（Search / Query）
9└── 数据一致性机制

二、Milvus 核心概念速查表

实体 Entity 示例

1{
2  "id": 1,
3  "embedding": [0.1, 0.2, 0.3, ...],
4  "title": "iPhone",
5  "price": 999.0
6}

三、核心操作流程

四、一致性模型与数据安全保障

Milvus 提供以下一致性保证：

五、索引类型选择指南

六、进阶知识点补充

七、实战：使用 Python SDK 完整示例（基于 Milvus 2.x）

环境准备

1pip install pymilvus

初始化连接

1from pymilvus import connections
2connections.connect(alias="default", host="localhost", port="19530")

创建 Collection

1from pymilvus import FieldSchema, CollectionSchema, DataType, Collection
2fields = [
3    FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),
4    FieldSchema(name="title", dtype=DataType.VARCHAR, max_length=200),
5    FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=128)
6]
7schema = CollectionSchema(fields, description="商品向量集合")
8collection = Collection(name="product_vectors", schema=schema)

插入数据

1import numpy as np
2titles = ["iPhone", "MacBook", "AirPods"]
3vectors = [np.random.rand(128).tolist() for _ in range(3)]
4collection.insert([titles, vectors])
5collection.flush()

创建索引 & 加载数据

1index_params = {
2    "index_type": "IVF_FLAT",
3    "metric_type": "L2",
4    "params": {"nlist": 128}
5}
6collection.create_index(field_name="embedding", index_params=index_params)
7collection.load()

向量搜索 + 条件过滤（Hybrid Search）

 1query_vector = [np.random.rand(128).tolist()]
 2search_params = {"metric_type": "L2", "params": {"nprobe": 10}}
 3results = collection.search(
 4    data=query_vector,
 5    anns_field="embedding",
 6    param=search_params,
 7    limit=5,
 8    expr="title like 'Mac%'"
 9)
10for hits in results:
11    for hit in hits:
12        print(f"id: {hit.id}, distance: {hit.distance}")

八、常见踩坑提醒

九、真实应用场景参考：电商推荐系统

十、快速上手建议

✅ 推荐

从创建 Collection 开始，理解字段与向量的对应关系
一步步插入数据、构建索引、执行搜索
多关注向量维度、索引类型和内存管理

❌ 避免

向量维度不统一
未加载数据就开始搜索