我要投稿

和快手聊了之后才知道，传统搜索早变天了

发布日期：2025-11-20 14:03:33 浏览次数： 1549

作者：MacTalk

微信搜一搜，关注“MacTalk”

最近和快手的搜索团队有过一次详细的沟通，具体来说是让快手的搜索工程师给我上了一课。越聊越发现，短视频和直播时代的搜索，已经不是传统搜索那套逻辑能搞定的了。内容变了，提问方式变了，场景节奏变了，原来依赖的搜索范式，早已跟不上这个高速流动、强语义驱动的多模态内容世界了。

所以在这篇文章里，我想从工程师的视角，把现代搜索这件事讲明白。

一、搜索走到十字路口

传统搜索这件事，起点很朴素：用户提供 Query（搜索词），系统帮忙“找到”最相关的那些数据记录。

早年的搜索，有点像翻一本巨大的字典。用户敲几个词，系统在倒排索引里去查，这些词出现在哪些文档，再按一些规则——比如 PageRank 算法——做选择和排序，给出最相关的搜索结果。信息以文字为主，页面更新频率也相对可控，这套搜索范式撑起了整个网页搜索时代。

但短视频和直播改变了这一切，今天的搜索，面对的是这样的世界：

有人搜“适合通勤的妆容”，期望看到的是短视频里的上妆步骤；
有人搜“一小时内带货好的女装直播间”，希望下一秒就能进到正在热卖的直播间里；
有人随手念一句“教小孩子写作业的搞笑视频”，搜索要能听得懂、找得到，还要实时地把最新的内容推上来。

想要搜索的内容除了文字外，还有视频、直播、长音频，形式从单模态变成了多模态，节奏从“按天更新”变成了“按秒刷新”。传统基于词的检索，像翻一本只记录生字的字典，对于这种“多模态、强时效”的内容世界，完全是力不从心的：只看“字面上的词”，无法理解复杂语义和场景。

然后传统搜索就开始打补丁，依赖人工规则：同义词扩展（苹果手机扩展到 iPhone）、Term 省略（只保留关键词）、实体归一（苹果公司、Apple、Apple Inc.” 归一到同一企业实体）、各种 Rank 特征，链路越做越长，越做越重。

用户需求越来越“像人说话”，内容越来越“像现实世界”，这就是快手搜索团队看到的十字路口。那么，是继续在旧范式上堆规则，还是干脆重构搜索链路，从底层把“理解能力”和“实时能力”重新连接起来？快手团队选择了后者。

于是，有了基于语义 ID 的判别式倒排 UniDex，以及统一生成式搜索架构 UniSearch：一个重写传统倒排方式，一个重写生成式搜索，把工业级搜索这条路往前推了一大步。

二、从词表到语义 ID：UniDex 彻底变革搜索倒排

UniDex 是快手提出的基于语义 ID 的新型倒排检索，用来更准确召回短视频内容。要理解 UniDex 做了什么，可以先回到传统搜索引擎的“核心”：倒排索引。

倒排索引很像图书馆里的一排卡片柜。每个词是一张卡片，上面记录着这个词出现在哪些文档里。查询“登山”，系统就去“登山”卡片对应的抽屉里，把关联的文档都搬出来做下一步筛选。几十年里，搜索引擎就是靠这种“词 → 文档列表”的结构支撑互联网世界。

但是短视频的世界，本质上是“语义”和“场景”的世界，而不是简单的“词和表”的世界。

比如有人搜“适合新手的小白健身教程”，真正表达的意思是：“别太难”“动作清晰”“节奏合适”“内容扎实”。如果只是按字面去查“新手”“健身”“教程”，很容易漏掉那些真正适合他的内容。

UniDex 怎么做呢？既然问题出在“词”上，那就别再围着“词和表”打转了，而是让模型先把视频和 Query 理解成一组更本质的“语义 ID”。

我们可以把“视频语义 ID”想象成给每个视频打上的一串“语义二维码”：编码器吃进去的是视频的画面、标题、文案等多模态特征；输出的是一组离散的语义 ID——它不再是中文词汇，而是模型学习出来的“语义格子”；

Query 走同一套编码和量化流程，也被映射到同一个语义空间里。

这样，搜索系统不再是“哪个词出现在哪些视频里”，而是“哪些视频和这个 Query 掉进了同一片语义格子里”。

在这个基础上，UniDex 把传统倒排里的两个关键环节——召回和排序——统一成了两部分：UniTouch 和 UniRank。

UniTouch：用语义倒排做召回

UniTouch 把 Query 和视频都编码成多组语义向量，然后用量化的方法把这些向量映射成离散的语义 ID 集合。倒排索引不再按“词”建，而是按“语义 ID”建。

当一个 Query 进来时：

在线模型实时编码这个 Query，产出一组语义 ID；

系统去“语义 ID 倒排表”里查有哪些视频拥有这些 ID；

只要有一个 ID 匹配，就可以被召回，而不再死盯着完全相同的词面匹配。

相比传统 Term-based 倒排，这种 Model-based 倒排有几个直接的好处：

泛化能力强：

即便用户输入的是以前没见过的新词组合，只要语义接近，系统就能通过语义 ID 把视频召回来，长尾 Query 的召回质量明显改善。

链路大幅简化：

过去要靠多路 Touch 方案 + 一堆规则堆出来的效果，现在交给模型直接学习语义空间，人工调整的工作量大幅下降。

资源效率更高：

语义 ID 本身是离散、紧凑的表示，在索引构建、存储、更新上的成本更低，也更利于并行计算和加速。

快手的同学给我讲，他们做的内部实验显示，在相同数据集上，UniDex 相比传统稀疏化检索模型，在 Recall@300、MRR@10 等核心指标上都有两位数的提升，在线端整体响应速度也提高了约 25%，同时算力开销更低。

UniRank 做的事情是：释放语义检索的上限

只做语义 ID 的匹配，还不足以把搜索能力“拉满”。UniRank 更像是“精细的裁缝”，专门负责在 UniTouch 召回的候选里做更细粒度的语义匹配。它仍然采用双塔结构，把 Query 和视频分别编码成多组向量，但在排序阶段做了更细的 Token-level 交互：

Query 不是一个整体向量，而是一组语义 Token；视频同样是一组语义 Token；模型会让 Query 的每个语义 Token 都去和视频的所有 Token 做相似度匹配，再综合这些匹配结果做最终打分。

这种细粒度的交互，让模型可以更好地理解“这条视频是如何对应这个 Query 的”，而不只是粗略地算一个整体相似度。这对于复杂、多约束的搜索句子尤为重要。

通过 UniTouch + UniRank 的组合，UniDex 完成了从 Term-based 倒排到 Model-based 倒排的“全量替换”。在快手的主搜场景中，它既提升了召回效果，又显著降低了系统的存储和算力成本，这相当于把传统倒排这块“老基建”重新翻修了一遍。

三、UniSearch：统一生成式搜索架构

UniDex 解决的是“判别”问题：在大量候选对象里，找出哪些视频或直播更匹配当前的 Query。但在一些高动态场景里，比如直播搜索，另一个问题就会变得同样重要——能不能直接“生成”出最合适的目标？

直播搜索是快手重要的搜索流量来源，也是短视频应用场景中的新业务领域，为应对直播业务场景高时效性要求的挑战，快手搜索技术团队设计了统一的生成式搜索架构，提升用户体验并优化搜索效率。

如果说倒排索引是“从已有的视频里挑”，生成式搜索更像是“让模型写一串指令，告诉系统应该把谁推到前面来”。UniSearch 就是解决这个问题的。

1. 技术创新：生成式搜索的真端到端训练方案

传统的工业搜索系统大多是多级联的：

第一层是召回，重点是“找得到”；

第二层是粗排，重点是快速做一次粗略排序；

第三层是精排，重点是“排得好”；

后面还可能有重排、融合、多路策略等等。

每一层都有自己的模型和特征，训练目标也各不相同。系统虽然好用，但复杂、脆弱，维护成本极高，而且很难做到“端到端的整体最优”。

生成式推荐/搜索模型（如 OneRec 等）尝试用大模型来统一这条链路，但往往仍然是“两段式”：先离散化物品，再单独训练一个生成模型预测这些离散 ID，离散化和生成是两个目标，很难真正统一起来。

UniSearch 的思路，是把这条链路压缩成一个统一的生成式框架，并做到真正的端到端训练：

一端是 Search Generator

用 Encoder-Decoder 架构做核心大脑。编码器接收的是 Query、用户历史行为、上下文等；解码器则自回归地生成视频或直播的语义 ID 序列。换句话说，它直接“写出了”系统应该召回和排序的结果。

另一端是 Video Encoder

它负责把每个视频或直播间编码成一组连续的语义向量，并通过 VQ-VAE 这样的方式离散化为语义 ID。这里的关键是：码本（codebook）的学习、视频表示的学习和生成式目标，是在同一个训练框架里联合完成的，而不是训练完一个再去适配另一个。

在训练过程中，UniSearch 还把传统搜索里“召回—粗排—精排”的漏斗结构，改写成一种“残差渐进式”的语义学习目标：模型先学会“粗粒度”的语义区分，类似传统召回；再在此基础上学习更细粒度的残差语义，类似粗排、精排不断 Refinement。

整个过程像在不断雕刻一块石头，从粗糙轮廓到最终细节，全程由同一个模型完成。

这样做的好处在于：过去是工程师把漏斗逻辑写在系统里，现在是把漏斗逻辑“学习进了模型里”；item 表征与 item 生成不再是两套逻辑，而是真正统一在同一个优化目标下。

从系统角度看，UniSearch 用一个统一的生成架构，替换掉了以往多阶段、多模型、多策略的复杂链路，在简化的同时，用端到端训练把整体效果提升上去了。

在线偏好 Search Preference Optimization（SPO）是另一个需要解决的问题。

离线训练先解决“模型要合理”，真正考验搜索系统的是“能不能沿着用户偏好持续迭代”。

UniSearch 上线后，会持续接收两类关键信号：

来自在线精排模型的“专业评分”；
来自真实用户行为的反馈，如点击、进间、停留时长等。

在此基础上，系统构建奖励机制，并以类似 GRPO 的强化学习范式，进行搜索场景下的 Search Preference Optimization（SPO）。

我们可以这么理解：对同一个 Query，模型会生成多个候选结果序列；系统依据每个序列在线表现给出奖励分数；模型根据奖励信号调整生成策略，让“更符合用户真实偏好”的生成模式成为主流。

这有点像 ChatGPT 通过人类反馈调整回答风格，只不过 UniSearch 调整的是“搜索结果列表”的生成方式。

从“翻字典”到“生成结果”，不只改变了搜索系统的技术形态，更让搜索首次有机会在工业规模上，把“搜索逻辑”真正交给模型学习，而不是写死在规则里。

2. 使用场景：直播搜索落地与在线学习

生成式搜索 UniSearch 最先落地的，是快手的直播搜索。

直播是一个极端动态的场景：直播间随时开播、下播；商品、话题、氛围、互动方式不停变化。

用户搜索“电钢琴教学直播”“今晚穿搭分享”“新机发布会”等关键词时，系统不仅要理解语义，还要理解此时此刻，哪几个直播间最值得他进去看看。

在这种环境下，传统的多路召回 + 多级排序，很容易变成一台庞大但响应迟缓的机器。而 UniSearch 的统一生成架构，更像一个反应灵敏的“指挥塔”。

它在线上的工作大致是这样的：

生成模型实时产出码本分布

当用户输入一个直播搜索 Query 时，Search Generator 接收 Query 和用户上下文信息，输出一组关于“语义 ID 序列”的概率分布。

动态 Trie 树保证“又新又合法”

快手会用一个大致 1 分钟颗粒度的时间窗，不断刷新“当前在线直播间 → 最新语义 ID 路径”的映射关系。这些路径被组织成一棵动态 Trie 树，实时监听直播码本更新。生成模型在这棵 Trie 上做 Beam Search，只探索那些真正存在的直播间路径，既保证生成结果的合法性，又能跟上直播间的实时变化。

Reward System 持续在线学习

用户是否进间、停留多久、是否换 Query，这些行为都会被转换为奖励信号，通过 SPO 机制反哺给模型。模型一边服务用户，一边学习用户，用业务效果作为“第二条损失函数”。

从实验结果看，UniSearch 上线到直播搜索链路后，带来了非常直接的收益：

直播间进间次数相对提升 3.31%，是近两年来该指标的最大收益；

换 Query 率下降约 0.38%，用户更少因为“不满意搜索结果”而反复改词；

进一步拆开看，接近 58.73% 的“进直播间”提升来自新用户，对平台不熟的新用户，反而更容易通过 UniSearch 找到合适的直播间。

对用户来说，这是一次“感觉更顺”的体验升级：搜一次，推来的直播更精准，不需要来回折腾。对业务来说，这是一次“效率更高”的分发升级：同样的搜索流量，带来更多有效进间和转化，同时后端链路的算力和存储成本并没有以同样比例增长，甚至还得以优化。

目前，UniDex 作为统一语义倒排，已经在快手综合搜索等核心业务中落地；UniSearch 则在直播搜索这样的强动态场景里跑在前线，共同构成了快手新一代工业搜索的“双引擎”。

四、新一代工业搜索的方向与价值

我们从 UniDex 和 UniSearch 上可以清晰的看到快手在新一代工业级搜索上的三条主线：

第一条，是从词到语义。

传统搜索的单位是“词”，新一代搜索的单位是“语义”。语义 ID 把视频、直播、Query 统一映射到同一个离散空间，用模型学习出来的“语义格子”取代人工维护的“词表 + 规则”，让系统更擅长理解“用户真正想要什么”，尤其是在长尾、多约束、口语化的 Query 上。

第二条，是从级联到统一生成。

传统搜索链路，像一台由许多齿轮拼接起来的大机器，强大，但每个齿轮都需要人去调。

UniDex 用模型重构倒排，把召回和排序统一在语义范式下；UniSearch 则进一步用 Encoder-Decoder 把“召回—粗排—精排”的漏斗学进模型里，再通过 SPO 的用户行为持续微调。

搜索不再只是一串工程模块的组合，而是逐步变成一个可以端到端训练、端到端优化的智能体。

第三条，是从离线规则，到在线偏好学习。

早期搜索系统的优化，多半发生在离线：调整策略、调权重、改特征。在 UniSearch 这样的新架构里，在线奖励（reward）和用户行为被直接写入优化目标，模型学到的不只是“相关性”，还有“平台和用户真正关心的偏好”。

站在今天看，这样的新一代工业搜索，已经在快手综合搜索、直播搜索等核心业务里落地并发挥了重要作用。对用户来说，搜索变得更快、更准；对平台来说，搜索带来了更多进间和收益；在业务上同时兼顾内容理解、实时性、个性化与稳定可落地。

要我看，这就是一条可以看得见的技术演进路径，为短视频、知识库、网页等内容搜索提供通用底层能力。

未来，当更多的知识库、创作平台、内容社区都走向多模态，快手的这套现代创新搜索技术，或许会成为新的“基础设施”。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业