我要投稿

DoorDash如何利用知识图谱增强大模型提升搜索召回精度

发布日期：2025-09-02 13:03:24 浏览次数： 2365

作者：知识图谱科技

微信搜一搜，关注“知识图谱科技”

How DoorDash leverages LLMs for better search retrieval

摘要

DoorDash面对用户复杂搜索需求，构建了基于大语言模型的混合检索系统。通过知识图谱约束LLM输出，实现精准查询理解和实体链接，显著提升搜索相关性。该方案在"热门菜品"功能上取得30%触发率提升，为企业级搜索系统提供了宝贵经验。

正文

一、DoorDash搜索挑战：精确性与灵活性的平衡

在DoorDash平台上，用户经常使用包含多重要求的精确搜索查询。例如，当用户搜索"vegan chicken sandwich"（素食鸡肉三明治）时，传统基于文档相似性的检索系统可能会返回以下结果：

素食三明治
素食主义三明治
鸡肉三明治
素食鸡肉三明治

在这些结果中，只有最后一项完全符合用户意图。对于不同属性，用户的偏好可能存在差异——消费者可能接受任何素食三明治作为替代，但会拒绝非素食的鸡肉三明治，因为饮食限制往往比其他属性（如蛋白质选择）更重要。

为解决这一挑战，DoorDash采用了混合检索架构：将基于关键词的检索系统与强大的文档和关键词理解能力相结合，能够有效执行"仅检索素食商品"等严格规则。

二、搜索引擎架构：文档流与查询流

典型的搜索引擎包含不同阶段，可分为两个主要流程：文档流和查询流。在DoorDash中，文档指的是商品或商店/餐厅，而查询则是用户在搜索栏中输入的搜索词。

如图1所示，查询流程的第一步是理解查询。查询理解模块通常包括解析和分割查询、用有用信息注释查询、将其链接到特定概念和/或纠正拼写错误等步骤。在DoorDash的案例中，还包括更具体的步骤，如预测查询的垂直意图——判断搜索是针对零售/杂货商品还是餐厅/食品商品。

同样，在文档处理方面，DoorDash有关键阶段来注释和处理文档，添加有用的元数据信息，然后将这些文档摄取到搜索索引中并使其可用于检索。这些信息不仅用于搜索用例，还用于其他产品界面，如过滤器和分析工具。

三、知识图谱赋能文档与查询理解

DoorDash的文档处理部分依赖于为食品商品和零售产品商品构建的知识图谱。这些图谱允许定义不同实体之间的关系，从而更好地理解文档。

这意味着商店和商品包含丰富的元数据——标签和属性——帮助更好地理解目录。例如，对于零售商品"Non-Dairy Milk & Cookies Vanilla Frozen Dessert - 8 oz"，可以拥有描述有价值信息的元数据，包括：

饮食偏好："Dairy-free"（无乳制品）
口味："Vanilla"（香草）
产品类别："Ice cream"（冰淇淋）
数量："8 oz"（8盎司）

查询可以被分割，然后链接到知识图谱中可用的概念。例如，像"small no-milk vanilla ice cream"这样的查询可以被分割成以下块：

code
["small", "no-milk", "vanilla ice cream"]

然后可以将每个片段链接到作为先前产品元数据一部分的属性。但是，根据片段的粒度，可能很难将其中一些片段链接到精确的属性；对于"vanilla ice cream"，需要链接到两个不同的字段：菜品类型"ice cream"和口味属性"vanilla"。解决方案应该是上下文感知的，以允许适当的分割和实体链接。

四、LLM驱动的查询理解

4.1 查询分割

传统上，查询分割依赖于点互信息（PMI）或n-gram分析等方法来确定查询中哪些词可能形成有意义的词段。如果查询相对简单，这些方法可能有效。但当处理包含多个重叠实体的复杂查询或具有高度歧义的查询时，它们就开始显得不足。

例如，在查询"turkey sandwich with cranberry sauce"中——"cranberry sauce"是一个单独的商品还是"sandwich"的属性？缺乏上下文，传统方法可能难以捕获这些词段之间的关系。

然而，在给定正确信息的情况下，大多数现代LLM都能理解复杂查询并提供准确的分割，考虑不同上下文中词语关系。

LLM的一个问题是它们容易产生幻觉。DoorDash需要开发受控词汇来创建既真实又对检索系统有价值的有意义分割。幸运的是，知识图谱工作已经提供了本体，使其能够访问多个可以指导这一过程的分类法。

与其将搜索查询分解为任意段落，DoorDash提示模型识别有意义的段落并在分类法下对其进行分类。尽管分割过程中的幻觉率很低——不到1%——他们还受益于输出在检索系统有价值类别中的即时分类。

DoorDash拥有餐厅商品分类法，定义菜系、菜品类型、餐食类型和饮食偏好等的层次关系。同样，零售商品分类法包括品牌、饮食偏好和产品类别。

以前面的查询为例："small no-milk vanilla ice cream"。与其简单地要求模型找到有意义的词段，DoorDash提示它提供结构化输出，将每个有意义的词段映射到分类类别之一：

json
{ 
  Quantity: "small", 
  Dietary_Preference: "no-milk", 
  Flavor: "vanilla", 
  Product_Category: "ice cream"
}

评估显示，这种方法导致更准确的分割，可能是因为结构化类别为模型提供了关于可能关系的额外上下文。

4.2 实体链接

一旦查询被分割，就需要将这些片段映射到知识图谱中可用的概念。由于知识图谱已作为文档理解工作的一部分被摄取到搜索索引中，可以使许多丰富属性可用于检索。像"no-milk"这样的片段应该链接到"dairy-free"概念，以确保检索包含此属性的候选集，而不将其限制为商品名称或描述中的精确字符串匹配，这可能会影响召回率。

LLM在这项任务中也非常有用。但是，正如在查询分割部分提到的，它们有时会生成事实上不正确或幻觉的输出。在实体链接的上下文中，这可能意味着将查询片段映射到知识图谱中不存在的概念或完全错误标记。

为了缓解这种情况，DoorDash采用了约束模型输出的技术，仅包括受控词汇内的概念——换句话说，分类概念。通过近似最近邻（ANN）技术检索的策划候选标签列表提供给LLM，减少这些类型的错误。这种方法确保模型从已经是知识图谱一部分的概念中选择，保持映射的一致性和准确性。

考虑之前的查询片段"no-milk"，ANN检索系统可能提供候选实体如"dairy-free"或"vegan"。然后LLM只需要根据上下文选择最合适的概念，确保最终映射准确且在知识图谱内。

为此，DoorDash利用检索增强生成（RAG）。过程通常如下：

对于每个搜索查询和知识图谱分类概念（候选标签），生成嵌入向量
使用ANN检索系统，为每个搜索查询检索最接近的100个分类概念或候选标签
提示LLM将查询链接到特定分类中的相应实体，如菜品类型、饮食偏好、菜系等

此过程最终为每个查询生成一组链接的分类概念，可以直接用于从搜索索引检索商品。整体过程如图所示。

经过这个过程，"small no-milk vanilla ice cream"的最终查询理解信号将与目录中描述为"Non-Dairy Milk & Cookies Vanilla Frozen Dessert - 8oz"的文档或商品的许多属性匹配：

json
{ 
  Dietary_Preference: "Dairy-Free", 
  Flavor: "Vanilla", 
  Product_Category: "Ice cream"
}

这使得通过实施特定的检索逻辑更容易控制要检索的内容，例如使所有饮食限制成为MUST条件，并允许不太严格属性（如口味）作为SHOULD条件的灵活性。

五、评估与质量控制

在查询理解管道中保持高精度至关重要，特别是在处理饮食偏好等重要属性时。为确保这一点，DoorDash开发了后处理步骤，防止最终输出中的潜在幻觉，并确保分割查询及其链接实体的有效性。在这些后处理步骤之后，对每批处理的查询进行手动审核以衡量系统质量。

注释者审查统计上显著的输出样本，以验证查询片段是否正确识别并准确链接到知识图谱中的适当实体。这种手动评估帮助检测和纠正系统性错误，完善提示和过程，并保持高精度。

六、记忆与泛化的权衡

在搜索系统中，记忆和泛化之间存在根本权衡。记忆导向的方法（如批量处理固定查询集）可以实现非常高的精度，但难以处理长尾新查询且维护成本高。泛化方法（包括轻量级启发式、BM25等统计方法或嵌入检索等更复杂方法）能够很好地泛化到新的查询-文档对，但可能无法达到专门针对特定查询优化的方法的精度水平。

通过将这里概述的方法与其他能很好泛化到新查询-文档对的方法相结合——包括轻量级启发式、BM25等统计方法或嵌入检索等更复杂方法——可以利用多重优势在保持适应性的同时实现更高精度。

七、系统集成：新查询理解信号的整合

查询理解系统的有效性还取决于它与搜索管道其他组件（特别是排序器）的集成程度。排序器负责根据与查询的相关性对检索到的文档——商品或商店——进行排序。

引入新的查询理解信号后，需要使排序器能够使用这些信号。随着排序器掌握新信号以及检索改进引入的消费者参与新模式，相关性和业务指标上升，这在在线测试中得到反映。

通过将排序器的能力与查询理解系统的精度相结合，能够提供更准确和相关的搜索结果。这种协同作用对于满足用户不断发展的复杂需求至关重要。

八、实际应用与成效

DoorDash的热门菜品轮播如图所示，依赖此检索管道来显示反映特定菜品意图查询的相关结果。

当消费者搜索"açaí bowl"（阿萨伊碗）等内容时，他们表明正在寻找特定菜品。通过在搜索结果页面中直接提供该特定菜品，他们可以快速比较许多商店的不同选项。

实施新的查询理解和检索改进后，DoorDash观察到热门菜品轮播触发率的大幅增加——能够检索到更多商品。具体而言，观察到比基线增加近30%，这也意味着搜索结果与消费者意图更加一致，使他们更容易下单。

触发率的增加应该为消费者带来更相关的结果。当准确分割查询并将其链接到知识图谱时，可以检索更广泛和更精确的菜品商品集来填充这些轮播。更高的触发率加上高质量结果意味着提高了整体相关性。这通过整页相关性（WPR）指标显示，该指标旨在从用户角度衡量不同查询片段和意图的搜索结果的整体相关性。该方法使菜品意图查询的WPR增加了2%以上，表明用户总体上看到了更相关的菜品。

在线测试还显示，相关性的增加与参与度和转化率的增加相一致。观察到当日转化率上升，证实减少摩擦可以帮助消费者决定订购哪些商品。

此外，由于改进的检索系统带来了新的和更多样化的参与，可以用更全面的数据集重新训练排序器。新的排序器版本进一步提高了相关性——如WPR增加1.6%所示——使消费者更容易发现和订购他们想要的菜品，从而产生更高的订单量并增加市场价值。