微信扫码
添加专属顾问
我要投稿
1688 AI原生应用如何重塑电商体验?揭秘AI导购助手如何解决找挑割裂痛点。 核心内容: 1. AI技术如何破解电商需求理解与找挑割裂难题 2. ReACT模式下找挑一体化的创新实践方案 3. 从模型到产品的三层策略与未来AI应用方向
导读 1688 AI 原生应用的创新探索与实践,分享主要围绕导购助手、找挑一体化展开。
1. AI 在电商场景的应用
2. 电商平台体验存在的痛点
3. 以买家为中心重新定义找挑
4. ReACT 模式下的找挑优化
5. 当时的能力与问题
6. AI 导购智能体框架
7. AI 导购助手整个请求过程
8. AI 导购助手落地带来的一些问题
9. 模型到产品的三层策略
10. 未来 AI 应用的方向
11. 1688 AI 原生应用的体验地址
12. 问答环节
分享嘉宾|张进 阿里巴巴 高级算法专家
编辑整理|曾晓辉
内容校对|李瑶
出品社区|DataFun
01
1688 作为整合批发与零售业务的在线电商平台,其完整的电商链路涵盖从商品发现到履约交付的众多关键场景。随着人工智能技术的快速发展,电商行业的各个业务环节正经历智能化重构。在电商运营体系中,核心价值始终在于通过精准匹配客户需求与供应链资源,最大化供需决策效率——这正是 AI 技术能够创造最大价值的关键领域。
在电商购物中,用户寻找和挑选商品的效率仍然较低,体验不够流畅。用户更希望平台能真正理解他们的需求,而不是在搜索框的限制下反复尝试。当前电商购物存在三方面核心痛点:
需求理解困境:用户的真实需求难以被精准捕捉。现有电商平台仍停留在"用户适配系统"的被动模式,要求消费者通过多级筛选、复杂操作拆解需求,甚至配合系统短板完成购物。这种"人适应机器"的交互方式让用户感到平台不够人性化。
技术瓶颈制约体验:核心问题根源在于技术能力的局限性。传统搜索依赖倒排索引和固定规则的检索逻辑,无法自然理解用户语言、把握需求上下文或挖掘隐性需求。这种技术上限决定了平台体验的天花板,迫使技术团队长期采取技术妥协方案。
找挑链路割裂:从搜索到决策的完整链路存在明显断层。用户需要通过检索缩小商品范围,再逐个跳转至商品详情页查看参数、评论、价格等信息,经过多次跳转比对才能完成决策,整个过程虽然能解决问题,但体验非常碎片化。
随着 AI 技术的突破性发展,自然语言处理、意图识别和个性化推荐等能力为电商体验革新提供了新可能。通过构建能主动理解需求、智能整合信息、无缝衔接找挑链路的 AI 原生应用,未来或将实现真正以用户为中心的购物体验跃升。
人工智能技术的革新正深刻重构电商消费链路。1688 以 AI 原生为核心理念,通过产品设计与技术方案的深度融合,打造全链路一体化服务,使用户感受到系统如同专属服务般贴心。这种以技术赋能用户体验的一体化解决方案,正是其AI原生应用的初衷与核心价值。
在电商领域,用户“寻找与挑选”商品的传统模式长期受困于既有范式。传统电商场景中,关键词检索与协同过滤等规则共同构建了产品筛选的基础逻辑,用户需要通过静态页面逐项查找产品详情以获取关键信息。这种模式使用户逐步形成了依赖页面浏览的导购习惯,却难以突破信息检索与个性化需求之间的鸿沟。
随着人工智能技术的突破,新型导购交互模式正在重塑消费场景。基于大模型的多轮对话系统能够通过自然语言和视觉交互深度理解用户需求,结合推理能力精准捕捉真实偏好。系统可主动提炼关键信息进行对比分析,以结构化摘要形式直观呈现个性化推荐结果,彻底改变过去依赖手动筛选的低效体验,使交互过程具备更智能的反馈机制。
针对电商“找与挑”场景的痛点,我们于 2024 年 3 月创新性地构建了找挑一体化解决方案。该方案突破传统检索与推荐系统的割裂架构,通过 ReACT 框架的智能体(Agent)模式实现双重功能的有机整合:既能精准执行多维度商品检索,又能基于协同过滤强化的动态排序模型进行智能推荐。这种"检索-推理-决策"的闭环架构,首次将用户需求理解、商品特征解析与个性化匹配全流程纳入统一技术框架,标志着电商导购交互进入认知智能新阶段。
ReCAT 模式采用闭环优化机制实现需求与搜索表达的精准匹配:用户输入需求后,AI 系统依托多步骤推理机制将自然语言需求转换为搜索引擎可识别的标准化品类关键词;搜索引擎基于该表达式返回检索结果后,系统通过语义分析模型对结果的相关性进行精准度评估,若匹配度不足则启动迭代优化流程,对初始查询词进行语义扩展或结构调整,重复此映射-检索-评估循环 3-4 次;最终输出经多轮验证的最优结果集。该模式通过整合搜索与筛选功能形成端到端解决方案,在用户侧实现"输入-等待-获取"的极简交互体验,能够有效满足需求挖掘与结果筛选的双重诉求。
当时产品推荐闭环方案在实施过程中存在以下关键问题,需系统性优化:
当时 GPT-4 能满足自主规划需求,但调用成本高一演示即花费约 10 元;
搜索引擎能力成为整体方案的上限,数据碎片化影响整合效果;
当时方案效果未达预期,智能生成效率受限,预判 AI 成本未来将逐步下降;
朝着未来,找挑一体的方案去走,但是当下必须跑起来。
当时在确定发展方向时,我们首先将整套方案快速落地。基于此,团队决定开发 AI 导购助手的智能框架,该框架采用 Agent 与工作流编排结合的标准化结构,与当前市场主流方案完全一致。
在 AI 技术应用路径上,存在两种典型模式:原生开发与兼容性改造。理想的原生 AI 应用如同特斯拉纯电平台,从底层架构开始适配 AI 特性;而受限于现有技术成熟度与平台兼容性需求,当时更现实的方案类似于宝马 X3 的"油改电"策略——保留传统架构主体(如内燃机车舱布局),通过替换核心动力模块(如将传统算法替换为 AI 驱动引擎),在非原生平台上实现智能化升级。这种渐进式改造方案虽非最优解,但能在技术过渡期平衡创新突破与系统兼容性需求。
该设计理念的核心在于通过多轮对话保持意图理解的一致性。系统通过持续追踪用户在交互过程中的意图脉络,将分散的对话片段串联为连贯的意图链路,从而实现"找货-推荐"的全流程闭环。具体而言,系统通过两到三次的用户意图交互,即可构建完整的购物需求画像,最终形成自然流畅的对话引导式购物体验。这种设计框架有效解决了传统电商场景中需求碎片化的问题,实现了需求理解与服务响应的有机统一。
该系统的核心竞争力源于其 AI 驱动的导购助手模块,其中意图判定作为决定用户体验的关键技术难点,直接决定了系统的基础性能和交互质量。为突破这一瓶颈,团队通过工程架构优化、产品逻辑设计与 AI 算法迭代的多维协同,构建起精准的意图识别机制,最终实现 90% 以上的判定准确率,为智能导购奠定了技术基础。
在核心模块突破后,系统进一步整合了多源数据接口与业务流程引擎,形成完整的对话式导购解决方案。该系统于 2024 年 5 月正式上线"找挑助手"功能,通过精准意图理解与智能推荐算法的深度融合,显著提升了用户在商品筛选与决策场景中的交互效率与体验质量。
用户提出"晚上约会穿连衣裙搭配"需求时,系统通过自然语言处理快速解析场景意图,同步完成需求翻译、商品检索及智能推荐。关键突破在于将"搜索-筛选-推荐"流程无缝衔接:通过对话交互明确用户风格偏好(如优雅/甜美元素),结合约会场景的光线、社交属性,精准匹配商品库中的长款丝质连衣裙、露肩设计等选项。最终推荐时,系统需提炼每款商品的核心优势(如垂感面料显瘦、V 领设计显脸小),通过结构化对比强化购买决策依据,实现从需求理解到场景化解决方案的闭环。
核心问题:
用户理解局限:系统依赖用户精准表达,缺乏细颗粒度画像与行为数据,导致仅能实现“猜你喜欢”,无法深度挖掘真实需求。
供给信息割裂:商品属性与用户语言存在语义鸿沟(如“新生儿奶瓶”与“60ml奶瓶”未关联),且多模态数据(图片/详情页)未被结构化利用。
匹配效率低下:依赖关键词检索,未实现用户意图与商品信息的语义级对齐,无法处理复杂需求。
优化方向:
构建智能用户画像:整合多维度数据,提升需求理解精准度;
多模态内容解析:结构化商品图文信息,弥合供需语义鸿沟;
打造端到端智能引擎:通过语义建模实现需求与商品的高效匹配,替代传统倒排索引逻辑。
目标:通过以上改造,系统从“被动响应”升级为“主动理解”,提升用户购物体验。
1. 智能用户画像,从猜你所想到懂你所需
用户画像推理链路通过四阶段实现需求精准捕捉:首先基于用户历史行为、购买记录及搜索关键词等底层数据,结合市场趋势、商品属性等外部数据,构建包含用户属性、行为特征及偏好标签的动态画像;其次通过语义分析和关联规则挖掘,将当前查询(如"学校门口商品")与用户画像交叉验证,识别隐含需求(如安全认证、价格区间、便携性等);最终生成符合多维约束的推荐结果(如奥特曼联名 3C 认证错题本,10-15 元,安全便携)。该链路通过整合多维度数据替代单一需求翻译,实现从浅层需求匹配到深度意图理解的跃迁,有效解决用户画像构建与需求推理的精准性难题。
2. 统一多模态商品内容,实现统一模态商品的知识组织
下一步重点在于通过 AI 优化多模态信息理解。现有商品信息未被充分挖掘,需从商品详情图中解析并结构化关键信息,但对数十亿级图片进行此类处理时,现有开源方案(如 GPT)难以高效实现,面临显著挑战。
基于 GPT-4 的对话数据增强技术,我们采用 0.5B 参数的 Visual Instruction Tuning 模型与 LLM 结合进行基准测试,实验结果在关键指标上超越 GPT-4 达 0.1 个百分点(GPT 基线 0.7 分 vs 本方案 0.81 分)。通过历时半年的系统性工程,团队完成了 10 亿级图像数据的结构化处理与深度清洗,构建了跨模态统一的商品知识体系。该体系将每个商品实体转化为类似百科全书的结构化文档,实现了多模态信息的语义化组织,显著提升了 AI 系统的知识调用效率。
3. 打造智能引擎实现高效匹配与满足
数据结构化、清洗到位,多模态对齐统一。有了需求,有了商品的供给,接下来是通过端到端智能引擎的打造来实现高效的匹配与满足。
(1)召回侧模型
本方案基于对比学习优化大模型,采用 Cosine Embedding Loss 作为损失函数,核心改进在于:针对用户自然语言需求与长文本商品文档的语义对齐需求,对通义模型的单向注意力机制进行改造,引入双向注意力机制实现对比学习中的表征优化,通过缩小 query 与商品在语义空间的表征距离提升对齐效果。
(2)排序侧模型
用户需求对齐复杂商品信息,排序模型需以精准满足用户需求为核心,而非依赖 CTR/CVR 等传统指标。排序逻辑应直接关联用户搜索意图的满足度,确保高相关性商品优先展示。例如,用户搜索“胡萝卜图案小包包”时,直接展示胡萝卜图案商品而非间接相关的“小兔子抱胡萝卜”商品,避免传统模型因指标偏差掩盖真实需求匹配度。所有相关性评估均以极致贴合用户需求为目标。
系统架构调整后,虽保持召回引擎与排序模型的技术独立性,但通过统一以解析用户需求为核心目标,实现链路串联。各子模块均围绕该目标协同完成召回、排序及判定,形成系统级联动,与此前架构形成差异化设计。
如推荐适合去哈尔滨游玩时候穿的羽绒服,用户需求可转化为:高蓬松度、鹅绒长宽比、版型设计、防风防水功能及科技面料等核心参数。系统通过向量模型对上述特征进行多维度召回与倒排索引,生成商品候选池;随后基于场景意图(哈尔滨极寒场景)对商品进行排序优化,优先提升高蓬松度鹅绒填充、防风防水处理及适配冬季活动的版型商品的曝光权重;最后对 TOP 排名商品进行双重校验,确保其技术参数(如蓬松度数值、面料防泼水等级)与用户隐含需求(极致保暖、场景适配性)强关联。
基于需求建模的模块化系统架构设计已全面完成。该系统通过用户需求输入启动智能分析流程:AI 引擎首先解析需求特征,继而通过多模态内容分析进行精准匹配,并基于需求理解生成推荐结果供用户评估适配性。以此为基础,计划于 2024 年 10 月正式推出 AI 深度产品寻觅系统,其创新性的需求-商品双向验证机制将彻底重构传统产品搜索路径,形成以智能分析驱动的闭环服务模式。
如上图所示,右边是整个思维链,推理出用户真正的需求是什么,然后结果呈现;这些绿色的勾跟红色的叉代表当前这个需求是否满足用户。用户不用点开详情,AI帮你挑选一遍,当用户需要查看哪些需求不满足的时候,再点开详情查看会发现所有的动态信息是可以理解的,所有的多模态图像的内容以及商品内容可用来佐证为何把这个商品推荐给用户,在这个系统里面,用户可直观看到找挑以及推荐的佐证。
团队已将该能力成功集成至 AI 导购助手。目前,导购助手的智能推荐逻辑已全面升级为端到端思维链体系,并融入了需求验证机制,实现了完整的需求满足闭环。这一成果是工程、算法与产品团队深度协同的创新结晶。
模型到产品的三层策略:端到端的原生模型方案、子任务协同的 pipeline 机制和产品兜底交互设计。有两条路径,一条是以模型即产品的路径;一条是以 AI 大模型加 workflow 以 Agent 的形式做产品的优化。
1. 端到端的原生模型方案
AI 的服务围绕模型即产品去做,若能实现端到端,一定会选择端到端的方案,其实是最简洁的,结构简单、链路短、泛化强。端到端的方案可以转变成一个数学问题去对目标直接建模
2. 子任务协同的 pipeline 机制
绝大多数场景当下实现不了端到端解决,会把问题拆分成多个子任务协同处理,这也是做导购助手实现的方式;就是把所有的算法问题、所有的模型问题变成一个个子问题,通过一个非常强的工程链路把所有内容串起来去解,源宝的第一代以及深度找货应用都是基于这种模式来实现的。
3. 产品兜底交互设计
子任务协同的模式也有很多无法解决的问题。比如用户需求怎么理解都不准,这个时候需要产品经理出来兜底,不允许你发散输入,设置成 5 个按钮,规定下需求,这样用起来虽是智能的,但体验上不一定会是最好。这个时候 AI 产品必须结合 AI 工程、 AI 算法才能进行完整的协同闭环。
1. 往 Agent 的路线走
当下 90% 的模式还是 Agent 的模式,提前定义好 AI 你要去做什么;其实就是每个 agent 和 workflow 的编排,让 AI 沿着编排路径和节点把问题执行掉。
随着人工智能技术的持续演进,模型越来越智能。未来可能无需人工干预,仅需向 AI 明确任务目标,即可实现自动化工作流编排(如 Manus、Deepsearch 等企业已实践该模式)。然而,这一模式仍面临重大挑战:尽管系统各节点的独立操作均符合逻辑规范,但最终输出可能产生不可预期的负面结果,且在追溯问题时,每个执行环节均显示正常运作,这种系统性错误的归因分析已成为当前技术落地的核心难题。
2. 往模型端到端路线走
当前电商平台推荐系统需处理海量商品数据(规模可达亿级),其链路构建将形成庞大的系统工程,面临 Prompt 工程复杂度显著增加及模型上下文容量的严峻挑战。若未来模型能支持万亿级上下文长度与 P 级显存规模,推荐服务或将实现类 Prompt 的简易交互方式——仅需输入即得精准结果,这或将成为 LLM 框架下推荐服务的最优解。
这套模式有很多非常好的场景可适配落地;如苹果商城,其商品 SKU 有限,把苹果商品的所有信息写入上下文,大模型就能直接有效精准应用;以及小米商城等类似品类不多的平台;但对于大电商平台来说可能要到万亿级别的上下文支持才有可能真的解决问题。
未来多模态端到端方案需通过算法对文本、图像、声音进行联合分布建模与表征压缩,结合强编码能力的自回归模型,利用联合分布解码生成目标输出,以支持多模态应用。
在电商场景中,通过构建商品信息与用户需求的联合分布模型,并基于大模型实现商品信息的深度嵌入,可直接通过确定性映射或高效编码器完成端到端的内容生成。该技术路径以模型为核心驱动力,无需依赖传统搜索引擎或复杂协同系统,即可实现搜索与推荐一体化的"找挑"功能,是电商智能化服务的重要探索方向。
Q1:早期使用 GPT4o 模型时,做一次找挑服务需要 10 元的成本,现在当下的成本降到多少?
A1:当前情况下,依托国内自主研发的智能模型已能够胜任各类任务需求,其成本优势显著且性能表现已达到较高水准。尤其对于可在三步规划内完成的问题场景,成本已经不再是核心问题。
Q2:一个多轮对话,用户不一定会有耐心把所有的对话都走完,若几步没有解决他的需求也就放弃了?
A2:从产品上看,真正用户对话大多数不会超过三轮,真正使用上三轮是用户体验的极限,我们的能力极限是7轮,对用户一般来说三轮以内就结束了。
Q3:中间的召回模型参数量是多少?
A3:模型参数不会太大,我们的学习目标是一个对比学习的任务,本质上是两向量空间的相关性逻辑,向量空间的相关性逻辑它是解决不了推理性问题的。大模型给到大家所有魅力的地方是推理能力涌现。以这个学习范式为例,它是没有办法解推理能力的,所以这种模型不需要很大就能实现很好的拟合,我们用的是0.5B 到 1B 左右,就可以解这个问题而且解得很好。
Q4:若是比较小的模型,与 ID based 双塔模型,有什么不同?
A4:与 ID based 的双塔模型相比,二者对齐的目标不一样;若按照这种方式去建对齐目标,原先的技术方式是可以的,其是把 ID 做成 ID 表层,其在向量上会有问题。你本质上是把 ID 映射到一个个向量空间,然后在向量空间做相关性问题。我们这里不是 ID,还有明确比例的上下文信息;因为从 ID 的角度来看,商品的 ID 表单量太大了,把这个量级的表单压缩进模型,跟 ID based 的双塔模型是两个不一样的东西,它是在预训练环境上做的,不是一个从零开始训练的模型。
Q5:去哈尔滨旅游,推荐衣服,其是一个推理问题;哈尔滨是一个 common 的问题,是大模型可以解的,再到商品这一层,具体是怎么做的?若做垂直领域的应用,大模型缺少相关业务知识,具体可以怎么操作?
A5:这是一个复杂的思维链过程,我们定了一个非常复杂的 prompt 逻辑,刚开始用的不是推理模型,DeepSeek 出来后才采用;原先是通过人工的方式定了一个非常复杂的思维链去推理,会挂载互联网信息,会把外部信息拿过来帮你做翻译,这里有多智能很大程度上取决于你 prompt 写的有多好;只要模型比较 OK,你写一个比较复杂的 prompt 就可以达成。结合模型已有知识,大概率能够推理出来;再加上外部搜索引擎的结果,是能够帮你去做这一层的知识理解;比方说冬天的哈尔滨,大概温度是多少度,大概是以这种形式带进去,它能够推理出需要高蓬松度这些内容。这里是纯粹把这件话翻译成电商场景,需要哪些维度的信息,其是一个大模型的翻译,还没到我们的电商系统。具体通过搜索加上大模型的分析,就可以得到想要的内容。
Q6:垂直领域如餐饮外卖行业,做检索 RAG,有其特殊的领域知识,大模型不是很懂,我们需要告诉它我们在乎的 KPI,我们的业务指标,以及之间的相关性?
A6:RAG 工程是能解,但 RAG 需要专门训练;需要跟你的系统去结合,要达到比较好的水平上线,中间这步训练是必须要做的,但 RAG 不是一个完美的解法,它只要召回不了,就没结果,它上限就是你的 RAG;未来端到端训练这样的模型,也是有机会,但训练的不稳定性会把这件事的成本变高,RAG 相对而言是当前性价比较高的一种方法。
Q7:未来端到端,把所有的商品信息放到模型的上下文是否可行?
A7:平台有上亿的商品,每个商品信息假如需要 1,000 个 token,1 亿乘以 1,000 的量级,现在没有任何一个公司的大模型能支持 1,000 亿的上下文,这样的信息量级是没法直接存进大模型的上下文。若大模型上下文支持的长度足够的长外加硬件的发展足够支持做这件事情,这会是简单粗暴有效的方法。
Q8:有一个场景是说用户是一个宝妈,她想给新生儿买奶瓶,用户的行为是怎样的,传统系统是怎么去满足的或者说哪部分没有满足,然后我们这套新系统能做的更好,能不能具体展开解释?
A8:从广大用户的行为模式看,是先去找社交媒体,从社媒看到对应的奶瓶,到 1688 图搜把这问题给解了,这是现在大众用户的普遍方式。社媒内容平台它是根据用户的需求去构建他的内容。电商平台是根据商品供给信息去构建商品的,真正要解此问题,用户需求语言到商品供给语言中间需要翻译,怎么翻译需要大量的数据清洗;以前是通过知识图谱的方式,把消费者的话通过图的方式把它映射到相应的关键词,同时搜索引擎还有 Query Rewriting 模块,可把你的词转译成一个搜索引擎能更好理解的词,其里面会配大量的词汇表,里面的词表本质上是把一个个用户需求与一个个供给者的映射关系。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业