跳转至

第15讲:数据隔离与多租户设计

上一讲知识库多版本管理 下一讲文档入库与索引链路

本讲目标

  • 理解 RAG 系统中的数据隔离需求
  • 掌握 DataScope 的结构和各字段含义
  • 理解隔离字段如何拼入 Milvus 过滤表达式
  • 理解轻量多租户方案的适用场景和局限性

本讲地图

本图对应本讲功能闭环,展示从输入到本讲交付物的主干路径。节点与主项目代码文件和函数保持一致,后续章节消费的能力只作为交付边界出现。

图 1:第 15 讲功能闭环地图

flowchart TD
    C15_CLEAN["参数清洗<br/>_clean_token() / _clean_list()"]
    C15_SCOPE["数据域<br/>DataScope"]
    C15_RESOLVE["解析数据域<br/>resolve_data_scope()"]
    C15_ESCAPE["表达式转义<br/>escape_expr_value()"]
    C15_SOURCE["source 过滤<br/>build_source_expr()"]
    C15_CONTEXT["上下文接入<br/>create_query_context()"]
    C15_STORE["结果过滤<br/>search_many(..., data_scope=...)"]
    C15_TEST{{"隔离测试<br/>DataScopeChapter15Test"}}
    C15_CLEAN --> C15_SCOPE
    C15_CLEAN --> C15_RESOLVE
    C15_SCOPE --> C15_RESOLVE
    C15_RESOLVE --> C15_CONTEXT
    C15_ESCAPE --> C15_SOURCE
    C15_CONTEXT --> C15_SOURCE
    C15_SOURCE --> C15_STORE
    C15_STORE --> C15_TEST
    style C15_CLEAN fill:#F8FAFC,stroke:#64748B,stroke-width:2px
    style C15_SCOPE fill:#DBEAFE,stroke:#2563EB,stroke-width:2px
    style C15_RESOLVE fill:#F5F3FF,stroke:#7C3AED,stroke-width:2px
    style C15_ESCAPE fill:#FEF3C7,stroke:#D97706,stroke-width:2px
    style C15_SOURCE fill:#DBEAFE,stroke:#2563EB,stroke-width:2px
    style C15_CONTEXT fill:#F5F3FF,stroke:#7C3AED,stroke-width:2px
    style C15_STORE fill:#FEF3C7,stroke:#D97706,stroke-width:2px
    style C15_TEST fill:#DCFCE7,stroke:#16A34A,stroke-width:2px

节点与代码对齐

节点 对齐文件 函数/对象 本章职责
参数清洗 qa_core/governance/data_scope.py _clean_token() / _clean_list() 规范化租户、数据集和角色字段。
数据域 qa_core/governance/data_scope.py DataScope 表达 tenant_id、dataset_id、visibility 和 user_roles。
解析数据域 qa_core/governance/data_scope.py resolve_data_scope() 从 API 参数构造 DataScope。
表达式转义 qa_core/governance/data_scope.py escape_expr_value() 防止过滤表达式注入。
source 过滤 qa_core/retrieval/filters.py build_source_expr() 把 source_filter、kb_version、DataScope 拼成过滤表达式。
上下文接入 qa_core/pipeline/runtime.py create_query_context() 每次请求都携带 data_scope。
结果过滤 qa_core/retrieval/store.py search_many(..., data_scope=...) 真实 Milvus 检索表达式同时携带 source、kb_version 和 DataScope。
隔离测试 tests/test_data_scope.py DataScopeChapter15Test 用测试锁住 DataScope 解析、过滤表达式和检索入参。

第一部分:前置知识 — 多租户与数据隔离

1.1 什么是多租户

多租户(Multi-Tenancy) 是指同一个软件实例同时服务多个客户(租户),每个客户的数据必须完全隔离。

1
2
3
4
5
6
7
8
传统系统(单租户):
  一家公司 → 一套部署 → 一个数据库

多租户系统:
  公司 A ─┐
  公司 B ─┼─ 同一套部署 ─ 同一个 Milvus Collection
  公司 C ─┘   ↓
           通过 tenant_id 字段区分数据

1.2 RAG 系统中的隔离维度

在 RAG 知识问答系统中,数据隔离有几个维度:

维度 问题 例子
租户隔离 A 公司能看到 B 公司的资料吗? tenant_id="company_a" 不应查到 tenant_id="company_b" 的数据
数据集隔离 生产环境和测试环境的数据混查? dataset_id="production" 不应查到 dataset_id="test" 的数据
可见性 实习生能看到高管会议纪要吗? visibility="restricted" 的内容不应被普通员工检索到
角色隔离 HR 能看到财务数据吗? HR 角色不应查到 allowed_roles=["finance_admin"] 的数据

第二部分:DataScope 数据结构

# qa_core/governance/data_scope.py
@dataclass(frozen=True)
class DataScope:
    """一次查询的数据访问范围。"""
    tenant_id: str = "default"        # 租户标识
    dataset_id: str = "default"       # 数据集标识
    visibility: str = "public"         # 可见级别
    user_roles: list[str] = field(default_factory=lambda: ["public"])  # 当前请求用户具备的角色

    def expr_clauses(self) -> list[str]:
        """生成 Milvus 过滤表达式子句。"""
        clauses = []

        if self.tenant_id:
            safe_tenant = escape_expr_value(self.tenant_id)
            clauses.append(f'tenant_id == "{safe_tenant}"')

        if self.dataset_id:
            safe_dataset = escape_expr_value(self.dataset_id)
            clauses.append(f'dataset_id == "{safe_dataset}"')

        if self.visibility:
            safe_vis = escape_expr_value(self.visibility)
            # IN 表达式:支持多级别可见性
            if self.visibility == "public":
                clauses.append(f'visibility in ["public"]')
            elif self.visibility == "internal":
                clauses.append(f'visibility in ["public", "internal"]')
            elif self.visibility == "restricted":
                clauses.append(f'visibility in ["public", "internal", "restricted"]')

        # 角色过滤:当前用户角色必须在文档允许的角色列表中
        if self.user_role and self.allowed_roles:
            # 使用 array_contains 或 IN 表达式
            safe_role = escape_expr_value(self.user_role)
            clauses.append(f'array_contains(allowed_roles, "{safe_role}")')

        return clauses

2.2 可见性层级

flowchart TD
    P["public<br/>公司公告 / 公开制度 / 产品手册"]
    I["internal<br/>部门流程文档 / 操作手册 / 内部培训资料"]
    R["restricted<br/>高管会议纪要 / 薪酬方案 / 未公开合同条款"]
    A1["public 用户<br/>仅 public"]
    A2["internal 用户<br/>public + internal"]
    A3["restricted 用户<br/>全部三级"]

    P -->|"包含于"| I
    I -->|"包含于"| R
    A1 --> P
    A2 --> I
    A3 --> R

    style P fill:#ECFDF5,stroke:#34D399,stroke-width:2px
    style I fill:#EFF6FF,stroke:#60A5FA,stroke-width:2px
    style R fill:#FEF2F2,stroke:#F87171,stroke-width:2px
    style A1 fill:#F8FAFC,stroke:#64748B,stroke-width:1px
    style A2 fill:#F8FAFC,stroke:#64748B,stroke-width:1px
    style A3 fill:#F8FAFC,stroke:#64748B,stroke-width:1px

这张图定义了数据可见性的层级模型——它决定了"谁能看到什么"。

三层从外到内呈同心圆嵌套关系(外层内容被内层包含):

层级 典型数据 谁能看到
public 公司公告、公开制度、产品手册 所有人(包括未登录用户)
internal 部门流程文档、操作手册、内部培训资料 internal 用户 + restricted 用户(包含 public 内容)
restricted 高管会议纪要、薪酬方案、未公开合同 仅 restricted 用户(包含 public + internal 内容)

关键的包含关系:public ⊂ internal ⊂ restricted。箭头从外指向内("包含于"),而不是从内指向外。这个设计意味着:

  • 标记为 internal 的用户,检索时自动包含 publicinternal 的数据
  • 标记为 restricted 的用户,检索时自动包含全部三级数据
  • 不存在"只查 restricted 不查 internal"的情况——上级天然覆盖下级

为什么不是"各层级独立,用户属于哪个层级就只查哪个"? 因为在企业场景中,高层级用户(如合规审计员)查资料时,如果搜不到公司公告(public),会很困惑。嵌套模型让权限高的用户看到的信息更全,而不是更窄。

对应的 Milvus 过滤表达式(见 2.1 节代码): - visibility="public"visibility in ["public"] - visibility="internal"visibility in ["public", "internal"] - visibility="restricted"visibility in ["public", "internal", "restricted"]

多维度隔离全景

flowchart TD
    Data["每条 chunk 或 FAQ"] --> Dim1["租户隔离<br/>tenant_id"]
    Data --> Dim2["数据集隔离<br/>dataset_id"]
    Data --> Dim3["可见级别<br/>visibility"]
    Data --> Dim4["角色控制<br/>allowed_roles"]

    Dim1 --> Expr1["tenant_id 等于 company_a"]
    Dim2 --> Expr2["dataset_id 等于 production"]
    Dim3 --> Expr3["visibility 允许 public 和 internal"]
    Dim4 --> Expr4["allowed_roles 包含 employee"]

    Expr1 --> Merge["AND 拼接"]
    Expr2 --> Merge
    Expr3 --> Merge
    Expr4 --> Merge

    Merge --> Final["Milvus 过滤表达式<br/>租户 + 数据集 + 可见性 + 角色"]

    style Data fill:#EFF6FF,stroke:#2563EB,stroke-width:2px
    style Final fill:#ECFDF5,stroke:#059669,stroke-width:2px

这张图展示了数据隔离的完整拼图——不是只有 visibility 一个维度。

每条存入 Milvus 的 chunk 和 FAQ 都携带四个独立的隔离字段,检索时通过 AND 拼接成完整过滤表达式:

维度 字段 解决的问题 典型值
租户隔离 tenant_id 不同公司/部门的数据不能互查 "company_a", "company_b"
数据集隔离 dataset_id 同一租户下,生产数据和测试数据不能混 "production", "staging", "default"
可见级别 visibility 同一数据集下,敏感资料仅限特定用户 "public", "internal", "restricted"
角色控制 allowed_roles 同一可见级别下,特定角色才能访问 ["legal", "hr", "admin"]

四个维度从上到下逐步收紧:先限定租户(最粗粒度),再限定数据集,再限定可见级别,最后检查角色。最终拼成的 Milvus 表达式类似:

tenant_id == "company_a" && dataset_id == "production" && visibility in ["public", "internal"] && array_contains(allowed_roles, "employee")

为什么不用一个大而全的字段(如 access_level)把四个维度都编码进去? 因为运维场景中这四个维度的管理节奏完全不同: - tenant_id 几乎不变(一套部署服务一家公司) - dataset_id 在知识库版本更新时可能切换(从 staging 切到 production) - visibility 随文档敏感性逐文档设置 - allowed_roles 随组织架构调整而增减

拆成四个独立字段后,每个维度的管理脚本可以独立运行,不需要拼一个复杂的编码规则。Milvus 的 AND 拼接天然支持这种多字段组合,性能没有额外损耗。

2.3 DataScope 的解析

def resolve_data_scope(
    *,
    tenant_id: str | None = None,
    dataset_id: str | None = None,
    visibility: str | None = None,
    user_roles: list[str] | tuple[str, ...] | None = None,
    user_role: str | None = None,
) -> DataScope:
    """构建当前请求或入库任务的数据域。"""
    return DataScope.from_request(
        tenant_id=tenant_id,
        dataset_id=dataset_id,
        visibility=visibility,
        user_roles=user_roles,
        user_role=user_role,
    )

第三部分:入库时的隔离字段

3.1 每个 chunk 的 metadata 中包含隔离信息

# 文档入库时
chunk_metadata = {
    "chunk_id": "abc123",
    "source": "hr",
    "tenant_id": "company_a",         # 租户
    "dataset_id": "production_v2",    # 数据集
    "visibility": "internal",         # 可见级别
    "allowed_roles": ["employee", "manager", "hr_admin"],  # 允许的角色
    "kb_version": "kb_...",
    ...
}

# FAQ 入库时
faq_metadata = {
    "faq_id": "faq_001",
    "source": "billing",
    "tenant_id": "company_a",
    "dataset_id": "production_v2",
    "visibility": "internal",
    "allowed_roles": ["employee", "billing_admin"],
    "kb_version": "kb_...",
    ...
}

3.2 入库时指定数据范围

# ingest_directory() 接收完整的隔离参数
ingest_directory(
    directory_path="scenarios/enterprise_knowledge/data/hr_data",
    source="hr",
    tenant_id="company_a",
    dataset_id="production_v2",
    visibility="internal",
    allowed_roles=["employee", "manager", "hr_admin"],
    kb_version=current_version,
)

第四部分:检索时的过滤表达式

4.1 拼接完整过滤表达式

# 一次实际检索的过滤器拼接
clauses = []

# source 过滤
if source_filter:
    clauses.append(f'source == "{escape_expr_value(source_filter)}"')

# 版本过滤
if kb_version:
    clauses.append(f'kb_version == "{escape_expr_value(kb_version)}"')

# 数据隔离
if data_scope:
    clauses.extend(data_scope.expr_clauses())

# 最终表达式
expr = " and ".join(clauses)
# 结果:'source == "hr" and kb_version == "kb_xxx" and tenant_id == "company_a" and dataset_id == "production_v2" and visibility in ["public", "internal"] and array_contains(allowed_roles, "employee")'

4.2 在前端请求中传入隔离参数

// WebSocket 请求
{
    "query": "入职流程有哪些步骤",
    "session_id": "...",
    "scenario_id": "enterprise_knowledge",
    "source_filter": "hr",
    "tenant_id": "company_a",
    "dataset_id": "production_v2",
    "visibility": "internal",
    "user_role": "employee",
    "user_roles": ["employee", "manager"]
}

第五部分:安全转义

5.1 为什么要安全转义

Milvus 的过滤表达式是一个类 SQL 的字符串。如果直接把用户输入拼入表达式,存在注入风险:

1
2
3
# 危险!如果用户输入 source_filter = 'hr" or 1==1 or "'
expr = f'source == "{source_filter}"'
# 结果:source == "hr" or 1==1 or "" → 绕过了 source 过滤!

5.2 escape_expr_value() 实现

1
2
3
def escape_expr_value(value: str) -> str:
    """转义 Milvus 表达式中的特殊字符。"""
    return value.replace('\\', '\\\\').replace('"', '\\"')

Milvus 表达式使用双引号包裹字符串值,因此只需要转义反斜杠和双引号。

5.3 白名单 + 转义双重保护

1
2
3
4
5
6
7
8
9
# 双重保护
if source_filter:
    # 第一层:白名单校验
    if valid_sources and source_filter not in valid_sources:
        raise ValueError(f"无效的业务分类:{source_filter}")

    # 第二层:安全转义
    safe_source = escape_expr_value(source_filter)
    clauses.append(f'source == "{safe_source}"')

第六部分:本方案的适用场景与局限

6.1 适用场景

  • 轻量多租户:几个到几十个租户,通过 tenant_id 区分
  • 本地验证和概念说明:展示多租户隔离的概念
  • 企业内部:按部门、角色做数据隔离

6.2 当前局限

  • 共享 Collection:所有租户的数据在同一个 Milvus Collection 中,通过表达式过滤实现逻辑隔离
  • 角色过滤allowed_roles 存储为数组,使用 array_contains 过滤,在小规模场景下可行
  • 不是真正的多租户架构:如果扩展到数百个租户,建议使用 Milvus 的 Partition Key 功能

6.3 升级路径

如果项目需要更严格的隔离:

1
2
3
4
5
当前方案:共享 Collection + 表达式过滤
升级方案 1:Partition Key(按 tenant_id 分区)
升级方案 2:Database 级隔离(每个租户独立的 Milvus Database)

但当前方案对于本地验证和中小规模内部系统已经足够,而且实现简单、易于理解。


第七部分:场景配置全貌 — 如何维护既有业务场景

虽然本讲的主题是数据隔离,但数据隔离和场景配置是紧密相关的。一个业务场景的完整配置决定了它的 source 白名单、数据范围、知识库版本和隔离策略。当前项目已经冻结为 8 个业务场景,一期不再新增第 9 个场景;这里重点讲清楚既有场景如何维护,以及为什么维护 source、FAQ 和资料不需要改主链路代码。

6.1 场景配置的层级结构

flowchart TD
    TOML["scenarios/enterprise_knowledge/scenario.toml<br/>场景身份 / source 白名单 / collection 名"]
    FAQ["scenarios/enterprise_knowledge/faq.csv<br/>标准问答对"]
    DataDir["scenarios/enterprise_knowledge/data/<br/>hr_data / it_data / finance_data"]

    TOML --> SD["ScenarioDefinition<br/>(frozen dataclass)"]
    SD --> Registry["ScenarioRegistry<br/>扫描全部场景目录"]

    FAQ --> Ingest["FAQ 入库"]
    DataDir --> Ingest2["文档入库"]

    Registry --> QASvc["QAService<br/>按 scenario_id 解析场景"]
    QASvc --> Milvus["按 faq_collection / doc_collection<br/>访问对应的 Milvus 集合"]
    QASvc --> Filter["按 valid_sources 做 source<br/>白名单校验和过滤"]

    style TOML fill:#EFF6FF,stroke:#3B82F6,stroke-width:2px
    style FAQ fill:#EFF6FF,stroke:#3B82F6,stroke-width:2px
    style DataDir fill:#EFF6FF,stroke:#3B82F6,stroke-width:2px
    style SD fill:#ECFDF5,stroke:#059669,stroke-width:2px

6.2 scenario.toml 完整字段说明

enterprise_knowledge 场景为例:

# scenarios/enterprise_knowledge/scenario.toml

# === 必填:场景身份 ===
scenario_id = "enterprise_knowledge"    # 唯一标识,用于 API 切换
display_name = "企业内部知识助手"         # 页面标题、回答中显示的助手名
industry = "通用企业"                   # 行业标签
assistant_name = "小知"                 # LLM System Prompt 中的角色名
business_domain = "企业内部制度与流程"    # LLM System Prompt 中的业务域描述
support_contact = "IT 服务台 分机 1234"  # 人工客服/信息不足时提供的联系方式
description = "面向 HR、IT、财务等内部制度的知识问答"  # 场景说明

# === 必填:数据源白名单 ===
valid_sources = ["hr", "it", "finance"]
# ↑ 这三个值会在 QAService.validate_source() 中做白名单校验
# ↑ 页面的 source 下拉框也基于这个列表生成

# === 必填:Milvus 集合名 ===
faq_collection = "enterprise_knowledge_faq"
doc_collection = "enterprise_knowledge_doc"
# ↑ 每个场景有独立的 FAQ 和文档集合,避免跨场景串库

# === 选填:source 中文标签(页面下拉框展示用) ===
[source_labels]
hr = "HR 制度"
it = "IT 支持"
finance = "财务报销"

# === 选填:source 推断正则(用于自动推断用户问题属于哪个 source) ===
[source_patterns]
hr = "(入职|离职|转正|调岗|考勤|请假|年假|加班|薪酬|绩效|社保)"
it = "(VPN|密码|网络|打印机|电脑|邮箱|账号|wifi|系统|OA|审批流|服务器)"
finance = "(报销|发票|预算|付款|采购|差旅|费用|借款|对公|对私)"

# === 选填:简历包装 ===
resume_project_name = "企业内部知识库智能问答平台"
resume_keywords = ["企业制度", "HR", "IT", "财务", "知识库"]

# === 选填:页面快捷提问 ===
sample_questions = [
    "新人入职流程怎么走",
    "VPN 连不上怎么处理",
    "员工报销需要准备哪些材料",
]

# === 选填:数据目录(默认值 = 场景目录下的 data/) ===
# data_root = "data"
# faq_csv_path = "faq.csv"

6.3 维护一个既有场景的完整步骤

假设要维护 engineering_project_qa 场景,补充“图纸会审”资料。只需以下步骤:

步骤 1:创建场景目录和配置文件

1
2
3
4
5
6
7
8
scenarios/
└── engineering_project_qa/
    ├── scenario.toml    ← 维护 source 白名单、关键词和页面示例问题
    ├── faq.csv          ← 补充或修正 FAQ 标准问答
    └── data/
        ├── drawing_data/    ← 图纸资料
        ├── quality_data/    ← 质量验收资料
        └── safety_data/     ← 安全资料

步骤 2:维护 scenario.toml

scenario_id = "engineering_project_qa"
display_name = "工程项目资料助手"
industry = "工程项目管理"
assistant_name = "工程资料助手"
business_domain = "工程图纸、规范、质量、安全和验收资料"
support_contact = "项目资料室"
description = "面向工程项目资料、施工规范和验收要求的知识问答"

valid_sources = ["drawing", "specification", "quality", "safety", "acceptance"]
faq_collection = "engineering_project_qa_faq"
doc_collection = "engineering_project_qa_doc"

[source_labels]
drawing = "图纸资料"
specification = "标准规范"
quality = "质量资料"
safety = "安全资料"
acceptance = "验收资料"

[source_patterns]
drawing = "(图纸|施工图|设计变更|图纸会审|深化图)"
specification = "(规范|标准|强制性条文|条文|规程)"
quality = "(质量|检验批|隐蔽工程|验收记录|实测实量)"
safety = "(安全|交底|危大工程|专项方案|防护)"
acceptance = "(验收|竣工|移交|资料归档|备案)"

resume_project_name = "工程项目资料与施工规范 RAG 问答助手"
resume_keywords = ["工程资料", "标准规范", "图纸会审", "质量验收"]

sample_questions = [
    "图纸会审记录和设计变更冲突时怎么办",
    "隐蔽工程验收资料需要哪些附件",
    "安全技术交底只有口头说明可以吗",
]

步骤 3:编写 FAQ CSV

1
2
3
question,answer,source
图纸会审记录和设计变更冲突时怎么办,应以审批后的设计变更或最新有效图纸为准,并保留会审记录、变更通知和审批记录,禁止直接按口头说明施工。,drawing
隐蔽工程验收资料需要哪些附件,通常需要隐蔽验收记录、影像资料、检验批资料、材料合格证明和监理签认记录,具体以项目资料管理要求为准。,quality

步骤 4:准备知识库资料

data/drawing_data/data/quality_data/data/safety_data/ 等既有 source 目录下放入 Markdown、PDF、Word、Excel 等资料。

步骤 5:执行入库

python scripts/rebuild_kb_version.py --scenario engineering_project_qa --new-version --force --quality-gate --activate

步骤 6:评测验证(可选但推荐)

eval_sets/ 下补充该场景的回归样本,然后运行:

python scripts/evaluate_core_chain.py --dataset eval_sets/business_depth_regression.json --limit 32 --output reports/evaluation/business_depth_regression_live_32.json
python scripts/check_evaluation_gate.py --report reports/evaluation/business_depth_regression_live_32.json

步骤 7:启动后验证

重启服务,在页面选择「工程项目资料助手」后提问新增 FAQ 或资料相关问题。维护既有场景时仍然是代码零修改,不需要改任何 Python 文件

6.4 场景配置如何影响主链路

flowchart LR
    Q["用户问题<br/>二类医疗器械注册需要哪些材料"]
    SF["source_filter<br/>未显式选择"]
    SID["scenario_id<br/>medical_compliance"]
    Registry["ScenarioRegistry.resolve()<br/>按 scenario_id 读取场景"]
    Def["ScenarioDefinition<br/>valid_sources: drug / device / privacy<br/>faq_collection: medical_compliance_faq"]
    Patterns["compiled_source_patterns()<br/>三组 source 正则:drug / device / privacy"]
    Match["source 自动推断<br/>问题命中 device"]
    Filter["检索过滤条件<br/>source_filter: device<br/>kb_version: active version<br/>tenant_id: default"]
    Search["MilvusHybridStore.search_many()<br/>collection: medical_compliance_faq<br/>expr: source 与版本共同过滤"]

    Q --> Registry
    SID --> Registry
    SF --> Match
    Registry --> Def
    Def --> Patterns
    Patterns --> Match
    Match --> Filter
    Def --> Search
    Filter --> Search

    style Q fill:#EFF6FF,stroke:#3B82F6,stroke-width:2px
    style SID fill:#EFF6FF,stroke:#3B82F6,stroke-width:2px
    style Registry fill:#ECFDF5,stroke:#059669,stroke-width:2px
    style Def fill:#ECFDF5,stroke:#059669,stroke-width:2px
    style Patterns fill:#FFFBEB,stroke:#D97706,stroke-width:2px
    style Match fill:#FFFBEB,stroke:#D97706,stroke-width:2px
    style Search fill:#F5F3FF,stroke:#7C3AED,stroke-width:2px

6.5 场景边界说明

本项目一期主链路不主动做跨场景边界识别。用户选择了哪个业务场景,系统就优先在该场景内检索;如果问题本身没有命中资料,后续会通过“无足够依据”的回答来收口。

这样设计的原因是:跨场景识别会引入额外规则、阈值和误判风险,而一期项目的核心目标是把 RAG 主链路跑通。真正影响检索隔离的能力是:

1
2
3
4
scenario_id
kb_version
tenant_id / dataset_id / visibility / roles
source_filter

这些字段会进入 Milvus 过滤表达式,保证查询时不会跨场景、跨版本、跨租户混查。

如果后续业务确实需要“用户问错场景时主动提醒”,可以把跨场景边界检测作为扩展功能单独实现,而不是放在一期主流程里。

6.6 场景配置与数据隔离的关系

配置层 作用 数据隔离维度
valid_sources 限制用户可选的 source source 级过滤
faq_collection / doc_collection 每个场景独立集合 物理级隔离
source_patterns 自动推断 source 意图驱动的过滤
DataScope (tenant/dataset/visibility/role) 同一场景内的进一步隔离 逻辑级隔离

场景配置定义了"这个问题应该去哪查",数据隔离定义了"这个用户能看哪些数据"。两者叠加构成了完整的访问控制。


本讲实践闭环

项目 内容
本讲类型 工程治理
实践产物 DataScope、租户/数据集/可见性/角色过滤表达式
是否进入最终项目
验收方式 生成 Milvus expr,确认包含 scenario、kb_version、tenant、dataset、source 等条件
后续落点 第 8 讲检索过滤,第 16 讲入库 metadata 标准化

通过标准:同一 collection 中的数据不会跨场景、跨版本、跨租户混查。

本讲从 0 到 1 实现闭环

这一讲要实现的是“同一个 collection 里可以放多场景、多版本、多租户数据,但查询时不能混查”。实现顺序如下:

flowchart LR
    Request["一次查询请求"] --> Scope["DataScope<br/>tenant / dataset / visibility / roles"]
    Request --> Plan["RetrievalPlan<br/>scenario / kb_version / sources"]
    Scope --> Expr["Milvus expr"]
    Plan --> Expr
    Expr --> Search["Hybrid Search<br/>只检索允许范围"]
    Ingest["离线入库 metadata"] --> Search
    Ingest --> Fields["scenario_id<br/>kb_version<br/>tenant_id<br/>dataset_id<br/>visibility<br/>allowed_roles"]
  1. 先定义 DataScope,描述一次请求允许访问的数据范围。
  2. 入库时把 tenant_iddataset_idvisibilityallowed_roles 写入每个 chunk metadata。
  3. 检索前把 DataScope 转成 Milvus expr。
  4. 最后用测试验证 expr 同时包含场景、版本、租户、数据集、source、角色条件。

实现完成后,相关代码结构应该是下面这张图:

flowchart LR
    Scope["qa_core/governance/data_scope.py<br/>DataScope 四维隔离"] --> Filters["qa_core/retrieval/filters.py<br/>构建 Milvus expr"]
    Normalizer["qa_core/indexing/document_normalizer.py<br/>入库补齐隔离 metadata"] --> Filters
    Filters --> Store["qa_core/retrieval/store.py<br/>带 expr 执行检索"]
    Tests["tests/test_retrieval_and_prompt.py<br/>expr 隔离验证"] -. 验证 .-> Filters

来源:真实代码节选,见 qa_core/governance/data_scope.py

1
2
3
4
5
6
@dataclass(frozen=True)
class DataScope:
    tenant_id: str = "default"
    dataset_id: str = "default"
    visibility: str = "public"
    user_roles: tuple[str, ...] = ("public",)

检索表达式不是简单拼 source,还要把场景、版本和权限边界都拼进去。

来源:真实代码逻辑压缩版,对应 qa_core/retrieval/filters.py::build_source_expr()

def build_source_expr(source_filter, kb_version=None, valid_sources=None, data_scope=None):
    validate_source_filter(source_filter, valid_sources)
    clauses = []

    if source_filter:
        safe_source = escape_expr_value(str(source_filter))
        clauses.append(f'source == "{safe_source}"')

    if kb_version:
        safe_version = escape_expr_value(str(kb_version))
        clauses.append(f'kb_version == "{safe_version}"')

    if data_scope is not None:
        clauses.extend(data_scope.expr_clauses())

    return " and ".join(clauses) if clauses else None

scenario_idtenant_iddataset_idvisibilityallowed_rolesDataScope.expr_clauses() 统一生成;source_filter 先过 valid_sources 白名单,再进入 Milvus expr。

入库标准化阶段必须补齐隔离字段,否则检索时再严格也查不到正确数据,或者出现跨域混查。

来源:真实代码调用点,见 qa_core/indexing/document_normalizer.py

1
2
3
4
5
6
7
doc.metadata.update({
    "scenario_id": scenario_id,
    "kb_version": kb_version,
    "tenant_id": scope.tenant_id,
    "dataset_id": scope.dataset_id,
    "visibility": scope.visibility,
})

验收时不用连接 Milvus,也可以先验证表达式字符串是否包含所有隔离条件。

来源:命令行验收,对应 tests/test_retrieval_and_prompt.py

python -m pytest tests/test_retrieval_and_prompt.py -q

闭环验证重点:

验证项 验证方式 期望结果
入库 metadata 查看 chunk metadata 有 tenant/dataset/visibility/roles
检索 expr 单测检查字符串 包含场景、版本、租户、数据集
source 白名单 传入非法 source 被拒绝或忽略
角色隔离 切换 user_roles 只能看到允许数据
场景隔离 切换 scenario 不跨场景召回

验收重点:数据隔离既要在入库 metadata 中存在,也要在检索 expr 中生效;只做其中一边都不完整。

重点掌握

优先级 内容 原因
★★★ 必会 DataScope 的四维隔离结构:tenant_id(租户)、dataset_id(数据集)、visibility(可见性)、user_roles/allowed_roles(角色) 数据隔离的完整模型
★★★ 必会 可见性层级嵌套关系:public ⊂ internal ⊂ restricted,上层用户自动覆盖下层内容 企业权限管理的常见模型
★★★ 必会 隔离字段写入 chunk metadata + 检索时拼入 Milvus expr 实现逻辑隔离 数据隔离的核心实现方式
★★ 理解 白名单校验 + 安全转义(escape_expr_value)的双重保护 防止表达式注入的关键设计
★★ 理解 场景配置(scenario.toml)的结构:valid_sources、faq/doc_collection、source_patterns 等 理解如何维护业务场景
★★ 理解 一期不主动做跨场景边界提示 通过场景过滤和无依据回答保证主链路稳定
★ 了解 轻量多租户方案的适用场景和局限性(数十个租户 vs 数百个租户需升级) 了解设计边界
★ 了解 source 自动推断(从 scenario.toml 的 source_patterns 匹配) 回顾第 4 讲内容

本讲小结

  • DataScope 封装了一次查询的数据访问范围(租户、数据集、可见性、角色)
  • 可见性层级:public ⊂ internal ⊂ restricted,下层包含上层内容
  • 隔离字段在入库时写入每个 chunk 的 metadata,检索时拼入 Milvus 表达式
  • 双重保护:白名单校验 + 安全转义,防止表达式注入
  • 当前方案是轻量多租户方案,适合本地验证和中小规模内部系统,大规模场景需要更严格的隔离

下一讲文档入库与索引链路 — 文档加载、切分、FAQ 入库、增量清单