如何精准过滤Qdrant数据库中嵌套数组字段的查询？

2026-04-28 22:203阅读0评论SEO资源

内容介绍
相关推荐

本文共计1066个文字，预计阅读时间需要5分钟。

在Qdrant中，要对嵌套的payload内的字典序列（如`attributes: [{...}, {...}]`）进行高效过滤，可以使用`attribute_value_id`进行多条件组合匹配。以下是一个简化的示例：

在实际电商或内容检索系统中，产品常携带结构化属性（如颜色、材质、适用场景），并以嵌套数组形式存储于 Qdrant 的 payload 中，例如：

{ "attributes": [ {"attribute_value_id": 22003, "key": "Environment", "value": "Casual/Daily"}, {"attribute_value_id": 98763, "key": "Color", "value": "Multicolored"}, {"attribute_value_id": 22040, "key": "Material", "value": "Polyester"} ], "brand": {"id": 114326, "title": "Happiness Istanbul"} }

前端传入的过滤参数形如：

{"attr_params": {"1254": ["98763", "98764"], "1255": ["22040", "22041"]}}

其语义是：同时满足（AND）——

attributes 数组中至少一个元素的 attribute_value_id 为 98763 或 98764（即 attr_id=1254 的任一值）；
且 attributes 数组中至少一个元素的 attribute_value_id 为 22040 或 22041（即 attr_id=1255 的任一值）。

✅ 正确解法依赖 Qdrant 对数组内嵌套字段的原生支持：使用 key="attributes[].attribute_value_id" 语法。其中 [] 表示遍历数组中每个对象，attribute_value_id 是每个对象的字段名。该路径会自动匹配数组中任意一项的对应字段值。

以下是完整、可直接复用的 Python 过滤代码（基于 qdrant-client>=1.9.0）：

from qdrant_client import QdrantClient from qdrant_client.http import models # 假设已初始化 client 和 query_vector filters_list = [] # 1. 品牌过滤（已有逻辑，保持不变） brand_params = param_filters.get("brand_params") if brand_params: filters_list.append( models.FieldCondition( key="brand.id", match=models.MatchAny(any=[int(b) for b in brand_params]) ) ) # 2. attributes 多属性值联合过滤（核心逻辑） attr_params = param_filters.get("attr_params") if attr_params: for attr_id, attr_value_ids_str in attr_params.items(): # 转换为整数列表（Qdrant 字段类型需严格匹配） attr_value_ids = [int(v) for v in attr_value_ids_str] # ✅ 关键：使用 'attributes[].attribute_value_id' 遍历数组所有对象 filters_list.append( models.FieldCondition( key="attributes[].attribute_value_id", match=models.MatchAny(any=attr_value_ids) ) ) # 执行搜索：must 列表中所有条件必须同时满足（AND） search_results = qd_client.search( collection_name=f"lang{lang}_products", query_vector=query_vector, query_filter=models.Filter(must=filters_list), search_params=models.SearchParams(hnsw_ef=128, exact=False), limit=limit )

? 关键原理说明：

attributes[].attribute_value_id 并非字符串拼接，而是 Qdrant 解析器识别的数组通配路径语法，等价于“在 attributes 数组的任意一项中查找 attribute_value_id 字段”。
每个 models.FieldCondition 独立封装一个 attr_id 的 OR 逻辑（MatchAny），而多个 FieldCondition 放入 Filter(must=[...]) 则构成顶层 AND 逻辑，完美契合业务语义。
❌ 错误写法（如 "attributes.1254.attribute_value_id"）试图将 1254 当作字段名，但 attributes 是数组而非字典，无法通过固定键索引。

⚠️ 注意事项与最佳实践：

类型一致性：确保 payload 中 attribute_value_id 存储为 integer（非字符串），否则 MatchAny 匹配会失败。入库前请做类型校验与转换。
性能提示：若 attributes 数组极大（>100 项），建议在数据预处理阶段对高频查询字段（如 attribute_value_id）建立独立扁平字段（如 attr_value_ids: [22003, 98763, 22040]），改用 key="attr_value_ids" + MatchAny，可显著提升过滤速度。
调试技巧：使用 qdrant_client.scroll() 获取原始 payload 样本，验证字段路径是否可被正确解析；或通过 Qdrant UI 的 Filter Builder 可视化构建表达式。
扩展性：如需支持 key="Color" 的模糊匹配，可额外添加 models.FieldCondition(key="attributes[].key", match=models.MatchValue(value="Color"))，再结合 must 与 should 组合更复杂逻辑。

通过上述方案，你无需修改数据模型或引入冗余扁平字段，即可在 Qdrant 中优雅、高效地实现嵌套数组的多维属性联合过滤，兼顾开发简洁性与线上查询性能。