跳转至

第2讲:RAG 核心概念深入

上一讲项目概述与环境搭建 下一讲LangChain 生态系统

本讲目标

  • 深入理解向量检索的数学原理
  • 掌握 Embedding 模型的工作机制
  • 理解 Dense 检索和 Sparse 检索的区别与互补
  • 了解 Reranker(重排)在 RAG 链路中的作用

本讲地图

本图把 Embedding、Hybrid Search、Rerank 和上下文生成放到项目代码落点上,后续实现会逐章补齐这些节点。

图 1:第 02 讲功能闭环地图

flowchart TD
    C02_EMBED["文本向量化<br/>get_embedding_model()"]
    C02_SPARSE["关键词稀疏召回<br/>BM25BuiltInFunction"]
    C02_HYBRID["混合检索<br/>MilvusHybridStore.search_many()"]
    C02_RERANK["精排重排<br/>rerank_hits()"]
    C02_CONTEXT["上下文构建<br/>build_context()"]
    C02_ANSWER{{"答案生成<br/>stream_query()"}}
    C02_EMBED --> C02_HYBRID
    C02_SPARSE --> C02_HYBRID
    C02_HYBRID --> C02_RERANK
    C02_RERANK --> C02_CONTEXT
    C02_CONTEXT --> C02_ANSWER
    style C02_EMBED fill:#F8FAFC,stroke:#64748B,stroke-width:2px
    style C02_SPARSE fill:#DBEAFE,stroke:#2563EB,stroke-width:2px
    style C02_HYBRID fill:#F5F3FF,stroke:#7C3AED,stroke-width:2px
    style C02_RERANK fill:#FEF3C7,stroke:#D97706,stroke-width:2px
    style C02_CONTEXT fill:#DBEAFE,stroke:#2563EB,stroke-width:2px
    style C02_ANSWER fill:#DCFCE7,stroke:#16A34A,stroke-width:2px

节点与代码对齐

节点 对齐文件 函数/对象 本章职责
文本向量化 qa_core/retrieval/models.py get_embedding_model() 把用户问题和文档 chunk 转成 Dense 向量。
关键词稀疏召回 qa_core/retrieval/store.py BM25BuiltInFunction 用 BM25 Sparse Function 补足关键词匹配能力。
混合检索 qa_core/retrieval/store.py MilvusHybridStore.search_many() 融合 Dense 与 Sparse 召回结果。
精排重排 qa_core/retrieval/ranking.py rerank_hits() 用 CrossEncoder 对候选证据重新排序。
上下文构建 qa_core/pipeline/context.py build_context() 把高质量证据整理为可引用上下文。
答案生成 qa_core/pipeline/rag.py stream_query() 让 LLM 基于上下文生成可溯源答案。

第一部分:前置知识 — Embedding 模型

1.1 什么是 Embedding

Embedding(嵌入) 是将非结构化数据(文本、图片、音频)转换为固定长度的浮点数向量的技术。

flowchart LR
    subgraph Input["输入:自然语言"]
        T1["入职流程需要准备哪些材料"]
    end

    subgraph Model["Embedding 模型 (BGE-M3)"]
        M["Transformer 编码器<br/>将语义映射到<br/>1024 维向量空间"]
    end

    subgraph Output["输出:向量表示"]
        V["[0.023, -0.451, 0.782, ..., 0.134]<br/>1024 个浮点数"]
    end

    Input --> Model --> Output

    subgraph Concept["概念类比"]
        C1["语义相近的文本"]
        C2["在向量空间中距离近"]
        C3["语义无关的文本"]
        C4["在向量空间中距离远"]
    end

    C1 --> C2
    C3 --> C4

    style Model fill:#EFF6FF,stroke:#2563EB,stroke-width:2px
    style Output fill:#ECFDF5,stroke:#059669,stroke-width:2px

在文本领域,Embedding 模型接收一段文字,输出一串数字(通常是 512 到 4096 维的向量),这个向量在数学空间中代表了这段文字的"语义位置"。

1.2 为什么要 Embedding

计算机本质上只能做数值计算。要让计算机"理解"两段文字是否相似,必须先把文字变成它可以计算的数字。

早期方法(如 TF-IDF、Bag-of-Words)只统计词频和共现关系,无法理解语义: - "我很开心" 和 "我非常高兴" 的词完全不同,但语义相同 - "银行利率很高" 和 "河边的银行很美" 词相同,但语义完全不同

现代 Embedding 模型基于 Transformer 架构,通过大规模预训练学会了理解上下文中的语义。同一个词在不同上下文中会产生不同的向量表示。

1.3 向量相似度计算

Embedding 把文本变成向量以后,检索系统要回答一个问题:用户问题向量和知识库中哪个 chunk 向量更接近?

这里要先区分两个概念:

  • 相似度(similarity):分数越大越相似,例如 Cosine、Inner Product
  • 距离(distance):数值越小越接近,例如 Euclidean Distance

向量数据库通常会把距离或相似度统一转成“可排序的分数”。所以你在代码里看到的 score,不一定都严格等于数学公式原始值,而是 Milvus / LangChain 返回的检索排序分数。

1.3.1 余弦相似度:看方向

余弦相似度 (Cosine Similarity) — 最常用

\[\text{cosine}(A, B) = \frac{A \cdot B}{||A|| \times ||B||}\]

其中:

  • \(A \cdot B\) 是两个向量的点积
  • \(||A||\)\(||B||\) 是两个向量的长度
  • 分母的作用是把长度影响消掉,只比较两个向量的方向

  • 取值范围 [-1, 1]

  • 1 表示方向完全一致,0 表示正交(不相关),-1 表示方向相反
  • 只看方向不看长度,适合文本语义比较

直观理解:

"新人入职流程"       → 方向接近 "新员工报到步骤"       → cosine 高
"新人入职流程"       → 方向远离 "VPN 连接失败"         → cosine 低

1.3.2 欧几里得距离:看直线距离

欧几里得距离 (Euclidean Distance) — 适合 L2 归一化后的向量

\[d(A, B) = \sqrt{\sum_{i=1}^{n}(A_i - B_i)^2}\]

欧氏距离比较的是两个点在向量空间中的直线距离。它是“距离”,所以:

  • 数值越小,表示越相似
  • 数值越大,表示越不相似

如果向量已经做过 L2 归一化,Cosine、L2、IP 的排序结果会非常接近。原因是所有向量都被压到单位球面上,长度都约等于 1,这时主要差别就来自方向。

1.3.3 内积:看方向和长度的乘积

内积 (Inner Product / Dot Product)

\[IP(A, B) = \sum_{i=1}^{n}A_i \times B_i\]

内积可以理解为“两个向量在同一方向上的重合程度”。如果向量没有归一化,内积会同时受方向和长度影响;如果向量已经 L2 归一化,内积和余弦相似度等价:

\[ ||A|| = ||B|| = 1 \Rightarrow \text{cosine}(A, B) = A \cdot B \]

所以很多向量检索系统会使用:

  • COSINE:语义检索中最容易解释
  • IP:归一化后效果等价,计算更直接
  • L2:适合一些几何距离场景
import numpy as np

# 两个语义相近的句子的向量
A = np.array([0.5, 0.3, 0.8, ...])  # "入职需要什么材料"
B = np.array([0.48, 0.32, 0.79, ...])  # "入职要准备哪些文件"

cosine_sim = np.dot(A, B) / (np.linalg.norm(A) * np.linalg.norm(B))
# 结果 ≈ 0.95(很高)

# 两个语义不同的句子的向量
C = np.array([-0.3, 0.7, -0.2, ...])  # "今天天气怎么样"

cosine_sim_ac = np.dot(A, C) / (np.linalg.norm(A) * np.linalg.norm(C))
# 结果 ≈ 0.1(很低)

1.3.4 本项目在哪里用相似度计算

本项目不是只在一个地方做“相似度计算”,而是在检索链路中分层使用:

使用位置 代码位置 计算方式 作用
Dense 向量检索 qa_core/retrieval/store.pysimilarity_search_with_score() BGE-M3 生成 1024 维 dense 向量,Milvus 按 dense 向量字段检索 找到语义相近的 FAQ / 文档 chunk
Dense 索引示例 第 4 讲 pymilvus 示例 metric_type="COSINE" 示例展示 Milvus 如何按向量相似度搜索
Sparse BM25 检索 qa_core/retrieval/milvus_compat.pyBM25BuiltInFunction 中文分词 + BM25 词频/逆文档频率评分 找到精确包含关键词、术语、编号的内容
Hybrid 融合 qa_core/retrieval/store.py ranker_type="weighted",权重 [0.55, 0.45] 将 dense 语义分数和 sparse BM25 分数融合排序
CrossEncoder 重排 qa_core/retrieval/ranking.py query + passage 成对输入 reranker 模型 对 Milvus 召回候选做二阶段精排

本项目的核心检索配置可以概括为:

1
2
3
4
5
6
用户问题
  → BGE-M3 生成 dense query vector
  → Milvus BM25 Function 生成 sparse query representation
  → Milvus 同时检索 dense 字段和 sparse 字段
  → WeightedRanker 按 0.55 / 0.45 融合
  → CrossEncoder Reranker 二阶段重排

1.3.5 Sparse 检索也是用余弦相似度吗?

不是。至少在本项目中不是。

Dense 检索比较的是 BGE-M3 生成的连续浮点向量,例如 1024 维:

dense = [0.012, -0.034, 0.876, ...]

这类向量适合用 Cosine / IP / L2 这类几何相似度计算。

Sparse 检索虽然也叫“稀疏向量”,但本项目的 sparse 字段由 Milvus 的 BM25 Function 生成,核心思想不是“两个语义向量夹角有多小”,而是:

1
2
3
4
query 里出现的词,是否也出现在文档里?
这个词在当前文档中出现得多不多?
这个词在整个语料库中稀不稀有?
这篇文档是不是因为太长而天然占便宜?

BM25 的典型形式是:

\[\text{BM25}(D, Q) = \sum_{i=1}^{n} \text{IDF}(q_i) \times \frac{f(q_i, D) \times (k_1 + 1)}{f(q_i, D) + k_1 \times (1 - b + b \times \frac{|D|}{\text{avgdl}})}\]

它关注的是:

  • TF:词在当前文档里出现多少次
  • IDF:词在整个语料中稀不稀有,越稀有越重要
  • 长度归一化:长文档不能因为词多就天然分数高

可以这样总结:

1
2
3
Dense 相似度:比较语义向量,常见公式是 Cosine / IP / L2。
Sparse BM25:比较关键词匹配贡献,核心是词频、逆文档频率和文档长度归一化。
Hybrid Search:不是让两者用同一个公式,而是分别计算各自分数,再融合排序。

1.4 BGE-M3 模型介绍

本项目使用的是 BGE-M3(BAAI General Embedding M3),由北京智源研究院(BAAI)开发。

📖 深入学习:如果你想了解 Embedding 模型的完整工作原理(Tokenization → Transformer → Pooling → 向量输出)、维度选择、模型对比和 L2 归一化,请阅读 附录F:Embedding 模型深入

BGE-M3 的核心特点

特性 说明
多语言 支持中英双语及 100+ 语言
多粒度 支持短句到长文档(最多 8192 token)的向量化
多功能 同时支持 Dense 检索、Sparse 检索和 Multi-Vector 检索
维度 默认输出 1024 维 Dense 向量
部署 可在本地 GPU/CPU 上运行,不需要调用外部 API

在本项目中,BGE-M3 部署在 models/bge-m3/ 目录下,通过 LangChain 的 Embedding 接口调用:

# qa_core/retrieval/models.py — 获取 Embedding 模型
from langchain_huggingface import HuggingFaceEmbeddings
from qa_core.config.settings import get_settings

def get_embeddings():
    settings = get_settings()
    return HuggingFaceEmbeddings(
        model_name=settings.embedding_model_path,
        model_kwargs={"device": "cpu", "local_files_only": True},  # 或 "cuda"
        encode_kwargs={"normalize_embeddings": True},  # L2 归一化
    )

第二部分:前置知识 — 向量数据库

2.1 为什么需要专门的向量数据库

初看可能会问:PostgreSQL 不是也有 pgvector 插件吗?为什么还要用 Milvus?

答案是性能和规模

对比维度 pgvector Milvus
百万级向量检索 较慢(秒级) 毫秒级
索引类型 IVFFlat, HNSW HNSW, IVF, DiskANN 等 11 种
混合检索 不支持 Dense + Sparse 原生混合
分布式 需额外配置 原生支持分布式
过滤表达式 基础 丰富的标量过滤

在本项目中,每个业务场景有数千条 FAQ 和数万个文档 chunk,且需要同时进行 Dense 向量检索和 BM25 关键词检索。Milvus 的 Hybrid Search 在一个查询中同时完成这两种检索,是最合适的选择。

2.2 Milvus 核心概念

前置知识:如果你不熟悉 HNSW 图索引原理,请先阅读 附录C:HNSW 图索引原理。如果你想了解 Milvus 各种索引类型的图解和 pymilvus 基本操作代码,请阅读 第4讲:Milvus 索引机制与基本操作

Collection(集合):类似关系数据库中的"表"。一个 Collection 存储一组相同结构的数据。

Field(字段):Collection 中的列。包括: - 主键字段 (Primary Key) - 向量字段 (Vector Field) — 用于相似度搜索 - 标量字段 (Scalar Field) — 用于过滤(如 source, kb_version)

Index(索引):加速向量检索的数据结构。Milvus 支持多种索引类型: - HNSW:基于图的索引,适合高召回率场景 - IVF_FLAT:基于聚类的索引,内存占用小 - 本项目使用默认的 HNSW 索引

Partition(分区):Collection 的物理分片,用于提高查询效率。

2.3 Milvus 的部署架构

flowchart LR
    DC["📦 docker-compose.yml"] --> etcd
    DC --> MinIO
    DC --> Milvus

    etcd["🗄️ etcd<br/>元数据存储<br/>配置、状态"]
    MinIO["📂 MinIO<br/>对象存储<br/>索引文件"]
    Milvus["⚙️ Milvus<br/>核心服务<br/>查询、写入"]

    style DC fill:#F3F4F6,stroke:#6B7280,stroke-width:2px
    style etcd fill:#EFF6FF,stroke:#3B82F6,stroke-width:2px
    style MinIO fill:#FFFBEB,stroke:#D97706,stroke-width:2px
    style Milvus fill:#ECFDF5,stroke:#059669,stroke-width:2px
  • etcd:分布式键值存储,Milvus 用它存储元数据(Collection 定义、索引状态、节点信息)
  • MinIO:S3 兼容的对象存储,Milvus 用它存储向量索引文件、日志和 binlog
  • Milvus Standalone:核心引擎,处理向量写入、索引构建和相似度搜索

第三部分:Dense 检索 vs Sparse 检索

这是本项目最核心的检索概念。让我们用一个具体的例子来理解。

flowchart TD
    Q["❓ 用户问题<br/>'入职需要准备什么材料'"] --> Dense["🧮 Dense 检索<br/>(BGE-M3 Embedding)"]
    Q --> Sparse["📝 Sparse 检索<br/>(Milvus BM25)"]

    Dense --> D1["语义理解<br/>→ '入职/报到/新员工'"]
    D1 --> D2["同义词扩展<br/>→ '准备/提交/携带'"]
    D2 --> D3["✅ 优势:理解语义<br/>❌ 劣势:精确术语弱"]

    Sparse --> S1["关键词匹配<br/>→ '入职' 命中 3 次"]
    S1 --> S2["精确匹配<br/>→ 'HS编码8471.30' 精确命中"]
    S2 --> S3["✅ 优势:精确匹配<br/>❌ 劣势:不理解同义词"]

    D3 --> Merge["🔀 混合检索结果<br/>Dense分数 + Sparse分数<br/>加权融合排序"]
    S3 --> Merge
    Merge --> Result["📊 互补优势<br/>既有语义覆盖<br/>又有精确匹配"]

    style Dense fill:#EFF6FF,stroke:#3B82F6,stroke-width:2px
    style Sparse fill:#FFFBEB,stroke:#D97706,stroke-width:2px
    style Merge fill:#ECFDF5,stroke:#059669,stroke-width:2px

3.1 场景设定

假设知识库中有以下文档片段:

ID 内容
D1 "忘记密码时,可以通过绑定的邮箱或手机号自助重置"
D2 "管理员可以在后台重置任何用户的密码"
D3 "Webhook 回调地址配置在系统设置-集成管理页面"
D4 "API 密钥在个人设置-安全页面中生成和管理"

3.2 Dense 检索(语义相似度)

用户提问:"我怎么修改自己的登录密码"

Dense 检索使用 Embedding 模型将问题和文档都转成向量,计算余弦相似度:

1
2
3
4
问题向量   vs  D1 向量 → 相似度 0.91  ← 最高!语义非常接近
问题向量   vs  D2 向量 → 相似度 0.72
问题向量   vs  D3 向量 → 相似度 0.15
问题向量   vs  D4 向量 → 相似度 0.22

D1 排第一,因为"忘记密码→自助重置"与"修改登录密码"语义高度相关。

Dense 检索的优势: - 理解语义,同义词和改写都能识别 - "重置密码"、"修改密码"、"改密码"、"忘记密码怎么办"等表达都能召回

Dense 检索的局限: - 对专业术语、编号、代码等精确匹配较弱 - 例如搜索"API v3.2 变更",Dense 检索可能召回所有和 API 相关的文档,难以精确定位到特定版本

3.3 Sparse 检索(关键词匹配)

Sparse 检索(本项目使用 BM25 算法)基于词频和逆文档频率,对关键词做精确匹配:

1
2
3
4
5
6
7
问题:"API 密钥在个人设置-安全页面中生成和管理"

D4 包含:API(1次), 密钥(1次), 个人设置(1次), 安全页面(1次), 生成(1次), 管理(1次)
→ BM25 分数最高

D3 包含:Webhook(1次), 回调(1次), API(0次), 密钥(0次)
→ BM25 分数较低

Sparse 检索的优势: - 精确匹配专业术语、编号(如 "API v3.2"、"HS 编码 8471.30") - 对生僻词和专有名词效果极好 - 计算效率高,不需要 GPU

Sparse 检索的局限: - 无法理解语义:搜"修改密码"不会召回"忘记密码怎么办" - 同义词需要手动维护

混合检索 = Dense + Sparse,取长补短:

1
2
3
4
5
6
7
8
9
问题:"HS 编码 8471.30 的进口关税是多少"

Dense 检索贡献:
  → 召回语义相关的文档:关税政策、进口流程、税率表

Sparse 检索贡献:
  → 精确匹配 "8471.30" 的文档:该编码对应的具体税率记录

合并结果 → 既有精确的编码匹配,又有相关的背景信息

在本项目中,Milvus 2.5.x 原生支持混合检索,并通过 BM25BuiltInFunction 提供 Sparse 召回能力:

1
2
3
4
5
6
7
# 一次查询同时走 Dense 向量和 Sparse 向量
results = milvus_store.similarity_search_with_score(
    query,
    k=top_k,
    expr=filter_expression,  # 同时过滤 source、kb_version、tenant 等
)
# Milvus 内部自动融合 Dense 和 Sparse 的分数

第四部分:Reranker(重排器)

flowchart TD
    subgraph Stage1["阶段一:Bi-Encoder 粗排 (快速)"]
        Q1["问题"] --> E1["Encoder"]
        D1["文档1..N"] --> E2["Encoder"]
        E1 --> V1["Q_vec"]
        E2 --> V2["D_vec"]
        V1 --> SIM["余弦相似度计算"]
        V2 --> SIM
        SIM --> TopK["取 Top-K<br/>(通常 20-50 条)"]
    end

    TopK --> Stage2

    subgraph Stage2["阶段二:CrossEncoder 精排 (精确)"]
        Pairs["构建 [Query, Doc] 对"] --> CE["BGE Reranker<br/>交叉注意力机制"]
        CE --> Scores["精细相关性分数"]
        Scores --> Sort["按新分数重排"]
    end

    Sort --> Final["✅ 最终排序结果<br/>Top-N 进入 LLM 上下文"]

    style Stage1 fill:#EFF6FF,stroke:#3B82F6,stroke-width:2px
    style Stage2 fill:#ECFDF5,stroke:#059669,stroke-width:2px

4.1 为什么需要重排

Embedding 模型的检索是双塔架构(Bi-Encoder):问题和文档分别编码为向量,然后计算相似度。

1
2
3
4
5
6
7
双塔架构(检索阶段):
  问题 → Encoder → Q_vec ─┐
                            ├→ 余弦相似度 → 分数
  文档 → Encoder → D_vec ─┘

优点:速度快,可以预先计算所有文档的向量
缺点:问题和文档之间没有交叉注意力,精度有限

Reranker 使用 CrossEncoder 架构(交叉编码器):将问题和文档拼接后一起编码,通过交叉注意力机制获得更精确的相关性判断。

1
2
3
4
5
交叉编码器(重排阶段):
  [问题 + 文档] → CrossEncoder → 相关性分数

优点:精度高,能捕捉细粒度的相关性
缺点:计算量大,不能对所有文档都做(所以只对检索结果的 Top-K 做)

4.2 Reranker 的工作流程

# qa_core/retrieval/ranking.py — 简化的重排逻辑

def rerank_hits(query, hits, *, reranker, top_n):
    """
    hits: Milvus 召回的候选文档(通常 20-50 个)
    reranker: BGE Reranker Large 模型
    """
    # 构建 [query, document] 对
    pairs = [[query, hit.page_content] for hit in hits]

    # CrossEncoder 逐一打分
    scores = reranker.predict(pairs)

    # 按新分数重新排序
    for hit, score in zip(hits, scores):
        hit.score = float(score)

    return sorted(hits, key=lambda h: h.score, reverse=True)

具体例子

用户问题:"入职时需要提交哪些材料"

Milvus 召回 Top-20:
  1. "入职流程包括提交材料、签订合同..." (dense:0.82, sparse:0.45)
  2. "离职需要提交离职申请表..." (dense:0.78, sparse:0.30)  ← 语义相近但答非所问
  3. "入职当天要携带身份证复印件..." (dense:0.75, sparse:0.55)
  ...

经过 BGE Reranker 重排:
  1. "入职当天要携带身份证复印件、学历证明..." (rerank: 0.94) ↑
  2. "入职流程包括提交材料、签订合同..." (rerank: 0.91) ↓
  3. "离职需要提交离职申请表..." (rerank: 0.15) ↓↓ 被排到后面
  ...

Reranker 准确识别出"离职"和"入职"是不同的场景,将相关但错误的文档排到了后面。

4.3 BGE Reranker Large

本项目使用 BGE Reranker Large(同样是 BAAI 开发),与 BGE-M3 Embedding 模型配合使用:

  • 架构:CrossEncoder(XLM-RoBERTa 基座)
  • 输入:[CLS] query [SEP] document [SEP]
  • 输出:0-1 之间的相关性分数
  • 部署:本地运行,位于 models/bge-reranker-large/

第五部分:在本项目中的体现

回顾第 1 讲中的核心架构图,现在你应该能理解每个组件的角色:

flowchart TD
    Q["❓ 用户问题<br/>'入职流程有哪些步骤'"] --> EMB["🔤 BGE-M3 Embedding"]
    EMB --> DV["📐 1024维 Dense 向量"]

    DV --> MH["🔍 Milvus 混合检索"]

    MH --> DENSE["📖 Dense 向量 → 语义相关的文档<br/>(制度、流程、注意事项)"]
    MH --> SPARSE["📌 Sparse BM25 → 精确包含<br/>'入职''流程''步骤'的文档"]

    DENSE --> MERGE["🔄 合并去重"]
    SPARSE --> MERGE

    MERGE --> CAND["📋 Top 30 候选"]
    CAND --> RR["⚖️ BGE Reranker 重排"]
    RR --> TOP5["🎯 Top 5 最相关文档"]
    TOP5 --> CTX["🧩 构建 Prompt Context"]
    CTX --> LLM["🤖 LLM 生成答案"]

    style Q fill:#F3E8FF,stroke:#9333EA,stroke-width:2px
    style EMB fill:#EFF6FF,stroke:#3B82F6,stroke-width:2px
    style DV fill:#EFF6FF,stroke:#3B82F6,stroke-width:2px
    style MH fill:#FEF3C7,stroke:#D97706,stroke-width:2px
    style DENSE fill:#ECFDF5,stroke:#059669,stroke-width:2px
    style SPARSE fill:#FFF7ED,stroke:#EA580C,stroke-width:2px
    style MERGE fill:#F5F3FF,stroke:#7C3AED,stroke-width:2px
    style CAND fill:#F9FAFB,stroke:#6B7280,stroke-width:2px
    style RR fill:#FEF3C7,stroke:#D97706,stroke-width:2px
    style TOP5 fill:#ECFDF5,stroke:#059669,stroke-width:2px
    style CTX fill:#EFF6FF,stroke:#3B82F6,stroke-width:2px
    style LLM fill:#F3E8FF,stroke:#9333EA,stroke-width:2px

本讲实践闭环

项目 内容
本讲类型 原理实验
实践产物 Embedding 相似度、BM25、Reranker 的单点实验
是否进入最终项目 否,作为理解检索原理的 demo;模型加载逻辑会进入项目
验收方式 运行 demo 后,相似问题分数更高,Reranker 能把更相关文本排到前面
后续落点 第 8 讲落到 Hybrid Search,第 17 讲落到检索评测

通过标准:能解释 Dense、Sparse、Reranker 各自解决什么问题,以及为什么要组合使用。

重点掌握

优先级 内容 原因
★★★ 必会 Embedding 的概念:文本→固定长度浮点数向量,语义相近的文本向量距离近 向量检索的基石
★★★ 必会 Dense 检索(语义相似度)vs Sparse 检索(关键词 BM25)的区别和互补 混合检索策略的核心,决定召回质量
★★★ 必会 Hybrid Search = Dense + Sparse 取长补短 本项目 Milvus 的核心检索方式
★★★ 必会 Reranker(CrossEncoder)解决 Bi-Encoder 精度不足的问题:先粗排后精排 提升检索精度的关键环节
★★ 理解 余弦相似度的取值范围和含义 理解向量比较的基础
★★ 理解 BGE-M3 的多语言、多粒度、多功能特性 了解本项目 Embedding 模型的选择理由
★★ 理解 Milvus 核心概念:Collection、Field、Index、Partition 为第 4 讲 Milvus 索引机制与第 8 讲混合检索做铺垫
★ 了解 向量相似度的三种计算方式(余弦/欧氏/内积)的公式 项目中使用默认内积,其他度量用于理解差异
★ 了解 pgvector vs Milvus 的对比 了解选型理由即可

本讲小结

  • Embedding 模型将文本转换为语义向量,语义相近的文本在向量空间中距离也近
  • BGE-M3 是本项目使用的多语言 Embedding 模型,支持 Dense + Sparse 双向量输出
  • Milvus 向量数据库不同于传统数据库,专为十亿级向量的高效相似度搜索设计
  • Dense 检索(语义)和 Sparse 检索(关键词)各有所长,混合检索取长补短
  • Reranker(CrossEncoder)对检索结果做精排,将问题和文档联合编码获得更精确的相关性
  • 完整的检索链路是:Embedding → 混合检索 → 去重 → Reranker → 上下文筛选

下一讲LangChain 生态系统 — 模型调用、消息历史、Prompt、文档对象、切分器和 VectorStore 抽象