免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

和快手聊了之后才知道,传统搜索早变天了

发布日期:2025-11-20 14:03:33 浏览次数: 1549
作者:MacTalk

微信搜一搜,关注“MacTalk”

推荐语

短视频和直播时代,搜索技术正经历一场革命,快手的创新方案如何重构搜索逻辑?

核心内容:
1. 传统搜索在短视频时代的局限性
2. 快手提出的UniDex和UniSearch技术方案
3. 语义ID和生成式架构如何解决多模态搜索难题

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

最近和快手的搜索团队有过一次详细的沟通,具体来说是让快手的搜索工程师给我上了一课。越聊越发现,短视频和直播时代的搜索,已经不是传统搜索那套逻辑能搞定的了。内容变了,提问方式变了,场景节奏变了,原来依赖的搜索范式,早已跟不上这个高速流动、强语义驱动的多模态内容世界了。

所以在这篇文章里,我想从工程师的视角,把现代搜索这件事讲明白。

一、搜索走到十字路口

传统搜索这件事,起点很朴素:用户提供 Query(搜索词),系统帮忙“找到”最相关的那些数据记录。

早年的搜索,有点像翻一本巨大的字典。用户敲几个词,系统在倒排索引里去查,这些词出现在哪些文档,再按一些规则——比如 PageRank 算法——做选择和排序,给出最相关的搜索结果。信息以文字为主,页面更新频率也相对可控,这套搜索范式撑起了整个网页搜索时代。

但短视频和直播改变了这一切,今天的搜索,面对的是这样的世界:

有人搜“适合通勤的妆容”,期望看到的是短视频里的上妆步骤;

有人搜“一小时内带货好的女装直播间”,希望下一秒就能进到正在热卖的直播间里;

有人随手念一句“教小孩子写作业的搞笑视频”,搜索要能听得懂、找得到,还要实时地把最新的内容推上来。

想要搜索的内容除了文字外,还有视频、直播、长音频,形式从单模态变成了多模态,节奏从“按天更新”变成了“按秒刷新”。传统基于词的检索,像翻一本只记录生字的字典,对于这种“多模态、强时效”的内容世界,完全是力不从心的:只看“字面上的词”,无法理解复杂语义和场景。

然后传统搜索就开始打补丁,依赖人工规则:同义词扩展(苹果手机扩展到 iPhone)、Term 省略(只保留关键词)、实体归一(苹果公司、Apple、Apple Inc.” 归一到同一企业实体)、各种 Rank 特征,链路越做越长,越做越重。

用户需求越来越“像人说话”,内容越来越“像现实世界”,这就是快手搜索团队看到的十字路口。那么,是继续在旧范式上堆规则,还是干脆重构搜索链路,从底层把“理解能力”和“实时能力”重新连接起来?快手团队选择了后者。

于是,有了基于语义 ID 的判别式倒排 UniDex,以及统一生成式搜索架构 UniSearch:一个重写传统倒排方式,一个重写生成式搜索,把工业级搜索这条路往前推了一大步。

二、从词表到语义 ID:UniDex 彻底变革搜索倒排

UniDex 是快手提出的基于语义 ID 的新型倒排检索,用来更准确召回短视频内容。要理解 UniDex 做了什么,可以先回到传统搜索引擎的“核心”:倒排索引。

倒排索引很像图书馆里的一排卡片柜。每个词是一张卡片,上面记录着这个词出现在哪些文档里。查询“登山”,系统就去“登山”卡片对应的抽屉里,把关联的文档都搬出来做下一步筛选。几十年里,搜索引擎就是靠这种“词 → 文档列表”的结构支撑互联网世界。

但是短视频的世界,本质上是“语义”和“场景”的世界,而不是简单的“词和表”的世界。

比如有人搜“适合新手的小白健身教程”,真正表达的意思是:“别太难”“动作清晰”“节奏合适”“内容扎实”。如果只是按字面去查“新手”“健身”“教程”,很容易漏掉那些真正适合他的内容。

UniDex 怎么做呢?既然问题出在“词”上,那就别再围着“词和表”打转了,而是让模型先把视频和 Query 理解成一组更本质的“语义 ID”。

我们可以把“视频语义 ID”想象成给每个视频打上的一串“语义二维码”:编码器吃进去的是视频的画面、标题、文案等多模态特征;输出的是一组离散的语义 ID——它不再是中文词汇,而是模型学习出来的“语义格子”;

Query 走同一套编码和量化流程,也被映射到同一个语义空间里。

这样,搜索系统不再是“哪个词出现在哪些视频里”,而是“哪些视频和这个 Query 掉进了同一片语义格子里”。

在这个基础上,UniDex 把传统倒排里的两个关键环节——召回和排序——统一成了两部分:UniTouch 和 UniRank。

UniTouch:用语义倒排做召回

UniTouch 把 Query 和视频都编码成多组语义向量,然后用量化的方法把这些向量映射成离散的语义 ID 集合。倒排索引不再按“词”建,而是按“语义 ID”建。

当一个 Query 进来时:

在线模型实时编码这个 Query,产出一组语义 ID;

系统去“语义 ID 倒排表”里查有哪些视频拥有这些 ID;

只要有一个 ID 匹配,就可以被召回,而不再死盯着完全相同的词面匹配。

相比传统 Term-based 倒排,这种 Model-based 倒排有几个直接的好处:

泛化能力强:

即便用户输入的是以前没见过的新词组合,只要语义接近,系统就能通过语义 ID 把视频召回来,长尾 Query 的召回质量明显改善。

链路大幅简化:

过去要靠多路 Touch 方案 + 一堆规则堆出来的效果,现在交给模型直接学习语义空间,人工调整的工作量大幅下降。

资源效率更高:

语义 ID 本身是离散、紧凑的表示,在索引构建、存储、更新上的成本更低,也更利于并行计算和加速。

快手的同学给我讲,他们做的内部实验显示,在相同数据集上,UniDex 相比传统稀疏化检索模型,在 Recall@300、MRR@10 等核心指标上都有两位数的提升,在线端整体响应速度也提高了约 25%,同时算力开销更低。

UniRank 做的事情是:释放语义检索的上限

只做语义 ID 的匹配,还不足以把搜索能力“拉满”。UniRank 更像是“精细的裁缝”,专门负责在 UniTouch 召回的候选里做更细粒度的语义匹配。它仍然采用双塔结构,把 Query 和视频分别编码成多组向量,但在排序阶段做了更细的 Token-level 交互:

Query 不是一个整体向量,而是一组语义 Token;视频同样是一组语义 Token;模型会让 Query 的每个语义 Token 都去和视频的所有 Token 做相似度匹配,再综合这些匹配结果做最终打分。

这种细粒度的交互,让模型可以更好地理解“这条视频是如何对应这个 Query 的”,而不只是粗略地算一个整体相似度。这对于复杂、多约束的搜索句子尤为重要。

通过 UniTouch + UniRank 的组合,UniDex 完成了从 Term-based 倒排到 Model-based 倒排的“全量替换”。在快手的主搜场景中,它既提升了召回效果,又显著降低了系统的存储和算力成本,这相当于把传统倒排这块“老基建”重新翻修了一遍。

三、UniSearch:统一生成式搜索架构

UniDex 解决的是“判别”问题:在大量候选对象里,找出哪些视频或直播更匹配当前的 Query。但在一些高动态场景里,比如直播搜索,另一个问题就会变得同样重要——能不能直接“生成”出最合适的目标?

直播搜索是快手重要的搜索流量来源,也是短视频应用场景中的新业务领域,为应对直播业务场景高时效性要求的挑战,快手搜索技术团队设计了统一的生成式搜索架构,提升用户体验并优化搜索效率。

如果说倒排索引是“从已有的视频里挑”,生成式搜索更像是“让模型写一串指令,告诉系统应该把谁推到前面来”。UniSearch 就是解决这个问题的。

1. 技术创新:生成式搜索的真端到端训练方

传统的工业搜索系统大多是多级联的:

第一层是召回,重点是“找得到”;

第二层是粗排,重点是快速做一次粗略排序;

第三层是精排,重点是“排得好”;

后面还可能有重排、融合、多路策略等等。

每一层都有自己的模型和特征,训练目标也各不相同。系统虽然好用,但复杂、脆弱,维护成本极高,而且很难做到“端到端的整体最优”。

生成式推荐/搜索模型(如 OneRec 等)尝试用大模型来统一这条链路,但往往仍然是“两段式”:先离散化物品,再单独训练一个生成模型预测这些离散 ID,离散化和生成是两个目标,很难真正统一起来。

UniSearch 的思路,是把这条链路压缩成一个统一的生成式框架,并做到真正的端到端训练:

一端是 Search Generator

用 Encoder-Decoder 架构做核心大脑。编码器接收的是 Query、用户历史行为、上下文等;解码器则自回归地生成视频或直播的语义 ID 序列。换句话说,它直接“写出了”系统应该召回和排序的结果。

另一端是 Video Encoder

它负责把每个视频或直播间编码成一组连续的语义向量,并通过 VQ-VAE 这样的方式离散化为语义 ID。这里的关键是:码本(codebook)的学习、视频表示的学习和生成式目标,是在同一个训练框架里联合完成的,而不是训练完一个再去适配另一个。

在训练过程中,UniSearch 还把传统搜索里“召回—粗排—精排”的漏斗结构,改写成一种“残差渐进式”的语义学习目标:模型先学会“粗粒度”的语义区分,类似传统召回;再在此基础上学习更细粒度的残差语义,类似粗排、精排不断 Refinement。

整个过程像在不断雕刻一块石头,从粗糙轮廓到最终细节,全程由同一个模型完成。

这样做的好处在于:过去是工程师把漏斗逻辑写在系统里,现在是把漏斗逻辑“学习进了模型里”;item 表征与 item 生成不再是两套逻辑,而是真正统一在同一个优化目标下。

从系统角度看,UniSearch 用一个统一的生成架构,替换掉了以往多阶段、多模型、多策略的复杂链路,在简化的同时,用端到端训练把整体效果提升上去了。

在线偏好 Search Preference Optimization(SPO)是另一个需要解决的问题。

离线训练先解决“模型要合理”,真正考验搜索系统的是“能不能沿着用户偏好持续迭代”。

UniSearch 上线后,会持续接收两类关键信号:

  • 来自在线精排模型的“专业评分”;

  • 来自真实用户行为的反馈,如点击、进间、停留时长等。

在此基础上,系统构建奖励机制,并以类似 GRPO 的强化学习范式,进行搜索场景下的 Search Preference Optimization(SPO)。

我们可以这么理解:对同一个 Query,模型会生成多个候选结果序列;系统依据每个序列在线表现给出奖励分数;模型根据奖励信号调整生成策略,让“更符合用户真实偏好”的生成模式成为主流。

这有点像 ChatGPT 通过人类反馈调整回答风格,只不过 UniSearch 调整的是“搜索结果列表”的生成方式。

从“翻字典”到“生成结果”,不只改变了搜索系统的技术形态,更让搜索首次有机会在工业规模上,把“搜索逻辑”真正交给模型学习,而不是写死在规则里。

2. 使用场景:直播搜索落地与在线学习

生成式搜索 UniSearch 最先落地的,是快手的直播搜索。

直播是一个极端动态的场景:直播间随时开播、下播;商品、话题、氛围、互动方式不停变化。

用户搜索“电钢琴教学直播”“今晚穿搭分享”“新机发布会”等关键词时,系统不仅要理解语义,还要理解此时此刻,哪几个直播间最值得他进去看看。

在这种环境下,传统的多路召回 + 多级排序,很容易变成一台庞大但响应迟缓的机器。而 UniSearch 的统一生成架构,更像一个反应灵敏的“指挥塔”。

它在线上的工作大致是这样的:

生成模型实时产出码本分布

当用户输入一个直播搜索 Query 时,Search Generator 接收 Query 和用户上下文信息,输出一组关于“语义 ID 序列”的概率分布。

动态 Trie 树保证“又新又合法”

快手会用一个大致 1 分钟颗粒度的时间窗,不断刷新“当前在线直播间 → 最新语义 ID 路径”的映射关系。这些路径被组织成一棵动态 Trie 树,实时监听直播码本更新。生成模型在这棵 Trie 上做 Beam Search,只探索那些真正存在的直播间路径,既保证生成结果的合法性,又能跟上直播间的实时变化。

Reward System 持续在线学习

用户是否进间、停留多久、是否换 Query,这些行为都会被转换为奖励信号,通过 SPO 机制反哺给模型。模型一边服务用户,一边学习用户,用业务效果作为“第二条损失函数”。

从实验结果看,UniSearch 上线到直播搜索链路后,带来了非常直接的收益:

直播间进间次数相对提升 3.31%,是近两年来该指标的最大收益;

换 Query 率下降约 0.38%,用户更少因为“不满意搜索结果”而反复改词;

进一步拆开看,接近 58.73% 的“进直播间”提升来自新用户,对平台不熟的新用户,反而更容易通过 UniSearch 找到合适的直播间。

对用户来说,这是一次“感觉更顺”的体验升级:搜一次,推来的直播更精准,不需要来回折腾。对业务来说,这是一次“效率更高”的分发升级:同样的搜索流量,带来更多有效进间和转化,同时后端链路的算力和存储成本并没有以同样比例增长,甚至还得以优化。

目前,UniDex 作为统一语义倒排,已经在快手综合搜索等核心业务中落地;UniSearch 则在直播搜索这样的强动态场景里跑在前线,共同构成了快手新一代工业搜索的“双引擎”。

四、新一代工业搜索的方向与价值

我们从 UniDex 和 UniSearch 上可以清晰的看到快手在新一代工业级搜索上的三条主线:

第一条,是从词到语义。

传统搜索的单位是“词”,新一代搜索的单位是“语义”。语义 ID 把视频、直播、Query 统一映射到同一个离散空间,用模型学习出来的“语义格子”取代人工维护的“词表 + 规则”,让系统更擅长理解“用户真正想要什么”,尤其是在长尾、多约束、口语化的 Query 上。

第二条,是从级联到统一生成。

传统搜索链路,像一台由许多齿轮拼接起来的大机器,强大,但每个齿轮都需要人去调。

UniDex 用模型重构倒排,把召回和排序统一在语义范式下;UniSearch 则进一步用 Encoder-Decoder 把“召回—粗排—精排”的漏斗学进模型里,再通过 SPO 的用户行为持续微调。

搜索不再只是一串工程模块的组合,而是逐步变成一个可以端到端训练、端到端优化的智能体。

第三条,是从离线规则,到在线偏好学习。

早期搜索系统的优化,多半发生在离线:调整策略、调权重、改特征。在 UniSearch 这样的新架构里,在线奖励(reward)和用户行为被直接写入优化目标,模型学到的不只是“相关性”,还有“平台和用户真正关心的偏好”。

站在今天看,这样的新一代工业搜索,已经在快手综合搜索、直播搜索等核心业务里落地并发挥了重要作用。对用户来说,搜索变得更快、更准;对平台来说,搜索带来了更多进间和收益;在业务上同时兼顾内容理解、实时性、个性化与稳定可落地。

要我看,这就是一条可以看得见的技术演进路径,为短视频、知识库、网页等内容搜索提供通用底层能力。

未来,当更多的知识库、创作平台、内容社区都走向多模态,快手的这套现代创新搜索技术,或许会成为新的“基础设施”。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询