微信扫码
添加专属顾问
我要投稿
工业界大模型推荐落地实战经验分享,揭秘Meta、字节等巨头的创新实践与收益验证。核心内容: 1. 工业界大模型推荐的两大落地路径:信息增强与直接建模协同信号 2. GRs、HLLMs等前沿工作的技术方案与场景验证 3. 多模态表征学习与生成式推荐框架的创新应用
大家好,我是蘑菇先生。
好久不见,今天盘点下2024年工业界大模型在搜广推上的实战落地型工作。业界工作大体分为两类:
第一类工作层出不穷,大部分在工业界无法惊起水花,属于学术性的探索居多。第二类工作寥寥无几,需要资源算力和业务场景等支撑,但也是搜广推值得探索的前沿方向之一。本文重点分享第二类工作。本次分享4篇文章:GRs(Meta)、HLLMs(字节)、NoteLLM(小红书)、NoteLLM-2(小红书)等工作,基本都在各自场景验证了收益,最近又重读了下,常读常新,做一些梳理分享给大家。涵盖目前推荐系统两类主流范式:
另外,文末送多模态大模型新书,欢迎阅读完!
全称:Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations.
意义:为工业级搜广推应用借鉴LLMs推理能力指明了一条新的道路。
整体方案一言以蔽之,通过生成式框架来重新定义召回和排序任务。在该生成式框架下,改造召排任务对应的输入输出范式、损失目标建模范式,在Transfomers架构上融入推荐系统DIN/MoE/SENet等主流设计思路,并通过算力优化达到线上推理条件。模型的输入不是文本,而是推荐系统标准的ID/结构化稀疏型特征构成的序列,借鉴LLMs模型架构,但没有用到预训练权重,意味着需要海量推荐系统数据进行训练才可能达到传统推荐模型的效果。
更多技术细节参见:行动胜过言语: Meta落地工业界首个万亿级别参数的生成式推荐系统模型。本部分主要补充更高阶的一些问题,也可参见Meta生成式推荐模型GRs关键问题探讨。
有2类关键问题想讨论:
从传统sequential recommender问题出发,探讨GRs如何改造传统建模范式。
如下图所示:Next Action Token prediction对应ranking任务,自回归预测的是前一个item在action上的概率分布,也即该item的行为类型。Next content token prediction对应retrieval任务。自回归预测的是next item,即在item物料上的概率分布。还是非常优雅的,将召排任务统一成“生成任务”视角。
模型对比图如下,左侧是传统的序列推荐模型,action只会在输入侧构建item表征时,作为额外的信息融入;输出端自回归的仍然是item本身;右侧是GR模型,输入端显式地将action也作为1种序列组成类型,输出端item和action均能够作为监督信号,来实现自回归预测。
此处召排本质上可以是统一的模型,如图中所示,在1个任务中联合建模和,此处拆成两个任务有一定取舍,可能是为了适配现有推荐系统链路。
除此之外,这一范式不仅能更好的建模数据分布,同时在可以通过beam search来生成item序列结果。这个相比于传统listwise的重排(如DPP和RL),会更加有优势。也就是说,该方案还能充当重排层的角色,实现listwise的预测,这样就统一了召回、排序、重排,真正实现生成式推荐。
训练: 下图是训练示意图,看示意图是个召排统一的GR模型,输出侧的监督信号包括了item和action。这个地方和前文描述的稍有出路。前文描述的排序任务输出侧监督信号主要是action,召回任务输出侧监督信号主要是item。但不影响理解。
推理:
排序在推理时,正常要对所有个候选都推理一遍。假设序列长度为,复杂度为。此处作者可以复用多个候选间的算力,一次性推理多个候选的打分(分batch)。
如下图所示:将batch为大小的候选items拼接到输入行为序列末尾,可一次性推理出每个item的预测action概率分布。多个target之间复用历史行为序列,因此历史行为序列理论上只需要1次推理即可,不同target item之间通过mask机制,阻断互相attention,这样就能够实现个候选同时预估,同时实现候选item和历史行为item的self-attention。即时叠加多层self-attention注意力机制,由于是causal self-attention,历史行为items表征中不会耦合待预测的target items表征信息。上述操作后,复杂度为。
这样实现的效果等价于对个候选分别拼接到历史行为序列中,各自做1次前向传播,一共做次,这样会导致历史行为序列的计算冗余。改进后,在1次前向传播推理中同时预估个候选,最大程度复用算力。
除了跨候选复用算力,在跨请求之间,通过KV caching机制,比如HSTU中的和可以在跨batch和跨请求之间复用。
总结一下:GRs将用户行为组织成序列行为,纳入了曝光/点击/交互等各类行为,将item和action都视作输入模态,作为序列的组成部分,每个item使用ID和结构化的稀疏特征来表示,抛弃了LLMs的预训练权重,通过海量数据自回归训练改造的Transformer架构HSTU。最终通过M-FALCON等算力优化手段实现线上推理。
全称:Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling
意义:HLLM是国内第一个对标Meta的GRs工作,也是今年大模型推荐的大作。
文章主要探讨了3个方面的问题:① 发挥LLM的预训练权重价值:研究预训练大型语言模型(LLMs)中包含的世界知识和推理能力在推荐系统任务中的具体价值,这一点与GRs的不同,GRs用了LLMs的模型架构,但没有使用预训练的权重,意味着HLLMs的数据效率可能更高。② 推荐任务微调:探讨如何为推荐任务进行特定微调(fine-tuning)。③ 模型的可扩展性:验证大语言模型在推荐系统中是否同样具备scaling能力,即模型性能是否随着模型参数量的增加而提升。
为了解决这一难题,文章也同Meta GRs一样,将推荐任务形式化为“序列推荐”。并提出了层次化大语言模型,第一级是Item LLM,使用LLM从item的文本表述中提取丰富的语义信息,此处没有使用ID信息; 第二级是User LLM,利用第一级的item表征来建模用户行为序列,预测用户的未来兴趣,此处大概率只使用用户交互的正样本。思路比较清晰。
模型整体结构如下:
本质上是使用LLM作为item侧的特征提取器,将丰富的文本信息压缩成1个item表征。主要改进就是在文本描述末尾新增特殊标记[ITEM]。然后过LLMs模型,将最后1层[ITEM]对应位置的hidden states作为item的表征。属于基本操作,在NoteLLM中也能见到。这个[ITEM]表征联同itemLLM的参数会在下游推荐任务中进行端到端微调。
通过item表征,可以将用户行为ID序列转成表征序列 ,然后套一个LLMs,就能让item序列进行充分交叉。该LLMs的输入中把LLM预训练的word embedding丢掉,使用item LLM输出的item embedding替代,然后后续的Transformers建模序列结构保持一致。
是batch内的user编号下标,是第个user的序列中的第i个item,是Item LLM输出的表征,是User LLM预测的表征。正样本是next item,负样本从batch内非该用户序列的其他样本中采样。
最后的损失如下,可以看到生成式目标实际是作为辅助损失的,主目标是LogLoss分类目标,和DIEN很像。
该目标训练的过程中,能够端到端联合训练Item LLM和user LLM。item LLM的产物[ITEM]对应的表征实际上还能用于其他推荐场景:如作为item表征输入到精排建模、用于召回等。
实验部分也是做的比较完备的,值得一看。包括几个部分:
最后我们再聊聊HLLMs的A/B Test部分,也是满满细节:基座是TinyLlama-1.1B,训练了HLLM-1B。由于性能的考虑,总共分为了3个部分:
线上serving的时候,item表征在新item发布的时候就会抽取表征;user表征T+1例行化更新;U/I的embedding提前存储好,用于流式训练和serving,这种情况下线上耗时几乎没变。
到此我们可以总结下HLLM和GRs的差异点:
正是因为上述的差异,在相同数据集上对比HLLMs和HSTU可能不够公平,无法达到各自最优水平进行对比。
全称:A Retrievable Large Language Model for Note Recommendation。
意义:第一个使用大模型做I2I推荐的工作。也是使用LLM兼容语义信息和协同信息,提升item embedding学习的代表性工作之一。
小红书发表在WWW 2024上的工作,基于LLM的I2I推荐。本质上是通过LLM来学习笔记的表征,该表征能同时拥有大模型的语义世界知识,还能将小红书用户行为中的协同信号注入其中。其建模的关键假设是:notes frequently read together are likely related. 利用了共现笔记通常比较相似的假设,通过I2I相关笔记对比学习任务来提升item embedding的学习。除此之外,还引入了“标签/类目”生成任务来多目标学习。
整体架构图如下,自下而上:包含了笔记压缩prompt、相关笔记对构建、生成对比学习和标签/类目生成多目标学习、最后应用于I2I推荐、笔记hashtag生成、笔记类目打标等任务。整体工作流大致是:先通过prompt来构造LLMs的输入,同时预留着[EMB]占位符节点,用于I2I协同信号对比学习和标签/类目生成学习,这样就能让共现高的笔记的[EMB]相近,同时还能保留LLMs的语义信息。
首先是Note Compression Prompt:为每个笔记样本构建一个统一的笔记压缩prompt,然后通过预训练LLMs进行解码学习item表征。prompt格式如下,[EMB]占位符就是学习的目标笔记表征。
对于类目生成任务,引入了类目等监督信号。
对于hashtag标签生成任务,引入了hashtags 的监督信号。
通过上述步骤装配模版成文本tokens,通过LLMs得到上述tokens的表征序列,[EMB]处的表征会作为笔记表征,通过下面的GCL和CSFT进行预训练。
全称生成对比学习。为了引入海量数据协同信号,作者构建了相关笔记对,计算所有笔记对的用户行为共现得分,并为每个笔记形成共现得分集合。并选择集合中共现得分最高的笔记作为给定笔记的相关笔记。计算相似笔记的公式借鉴了类似swing的思路。
接着通过生成对比学习(GCL)使用上述压缩标记作为每个笔记的表征,并训练LLMs从in-batch的负样本中识别出相关的正样本笔记。本质是利用共现笔记中的“协同信号”,来提升这个[EMB]的学习质量,让相似的note的EMB相近。
全称协同监督微调。笔记的category和hashtags有一些监督信号,可以用于多任务学习,使用自回归生成损失建模即可。具体而言,作者采用了一种协同监督微调(CSFT)方法来训练模型为每个笔记生成标签/分类。由于I2I笔记推荐任务和标签/分类生成任务中学习到的压缩标记都旨在提取笔记内容的关键概念,CSFT可以有效增强笔记嵌入。
最后,训练好的模型可以同时做I2I向量检索、类目打标、话题生成等任务。
从实验部分来看,
全称:Multimodal Large Representation Models for Recommendation。
意义:第一个直接使用LLM来提升推荐系统多模态表征质量的工作,发挥LLMs和视觉Encoder各自的优势。
同样出自小红书的工作,提出了一个端到端训练方法,能够方便地定制集成任何现有的LLMs和视觉Encoder,以构建高效的多模态表示模型(Multimodal Large Representation Models, MLRMs)。
NoteLLM的Item表征主要建模文本信息,这篇工作在文本表征之外,重点建模了笔记的多模态信息,并用于多模态的I2I推荐。文章重点探讨了如何充分发挥LLM的文本理解能力,来弥补传统多模态模型对文本信息的忽视,取长补短。
具体而言,在I2I推荐任务上,提出了一种端到端训练方法,和NoteLLM一样,使用I2I共现笔记对的对比学习,来增强多模态表征的学习。所以乍一看就是在note compression prompt设计上如何引入图像表征来形成多模态表征。方法也很简单,
在NoteLLM的prompt基础上引入了图像表征占位。是placeholder, 后面会使用从原始图像中提取的vision embedding代替。
具体而言,先使用上述prompt过tokenizer后得到text embedding。然后text embedding中占位符对应的word embedding使用vision encoder(例如CLIP/BLIP等)经过Connector(MLP层)得到的visual embedding来替换,形成多模态表征序列。然后使用LLMs处理该多模态表征序列,得到最后的last hidden states作为note的多模态表征。然后使用和NoteLLM一样的共现item pairs进行对比学习预训练。如下所示,和NoteLLM是一样的。
但这个简单的改造会面临的问题在于:LLMs在端到端训练中倾向于忽视图像信息,被文本信息主导。为此,文章提出2种方法:包括:① 从prompt的视角区分“文本信息”和“图像信息”,其实就是优化prompt,称为mICL(multimodal in-context learning);② 在LLM接入下游I2I任务的输出端引入late fusion机制,在结构上显式地让原始图像信息发挥更大作用。整体架构图如下:
首先是mICL,将prompt改造成如下格式,和NoteLLM的主要差异点是接入下游的时候有2个表征节点,新增的<IMG_EMB>,因为Causal attention机制,这个节点仅提炼了前面的图像表征信息;另一个是整个prompt节点,即prompt尾巴处,提取了文本和图像多模态表征。这两个表征在下游I2I建模时都会发挥作用,以保留图像的信息。
接着是Late Fusion机制:为图像表征和多模态表征都设置了门控融合机制,来自适应融合原始vision encoder的输出和上述图像表征和多模态表征。例如图像表征如下,其中是visual encoder(如BLIP/CLIP等)的原始表征,是上述经过LLM后的图像表征。二者通过门控机制融合得到。同理,多模态表征节点,也和进行门控融合。
图像表征节点和多模态表征节点,分别过对比学习损失来建模。
从实验部分,
LLM大部分都是采用7B左右的,效果来看 MQwen-bigG>MQwen-Base>MTomato-Base,说明LLM和vision encoder都很重要。mICL和late fusion通过放大vision encoder的作用,都能起到一定作用。
NoteLLM-2和NoteLLM的差异:
基于上述工作,我们可以大致窥探出LLMs在搜广推上应用的范式:
GRs | Zhai J, Liao L, Liu X, et al. Actions speak louder than words: Trillion-parameter sequential transducers for generative recommendations[J]. arXiv preprint arXiv:2402.17152, 2024.
HLLMs | Chen J, Chi L, Peng B, et al. HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling[J]. arXiv preprint arXiv:2409.12740, 2024.
NoteLLM | Zhang C, Wu S, Zhang H, et al. NoteLLM: A Retrievable Large Language Model for Note Recommendation[C]//Companion Proceedings of the ACM on Web Conference 2024. 2024: 170-179.
NoteLLM-2 | Zhang C, Zhang H, Wu S, et al. NoteLLM-2: Multimodal Large Representation Models for Recommendation[J]. arXiv preprint arXiv:2405.16789, 2024.
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-29
2025-05-23
2025-04-29
2025-05-07
2025-05-07
2025-06-01
2025-05-07
2025-04-29
2025-06-07
2025-05-20
2025-07-19
2025-07-19
2025-07-19
2025-07-19
2025-07-19
2025-07-18
2025-07-18
2025-07-18