支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


淘宝直播数字人:服务端工程技术

发布日期:2025-07-04 15:17:48 浏览次数: 1540
作者:大淘宝技术

微信搜一搜,关注“大淘宝技术”

推荐语

淘宝直播数字人技术揭秘:从文案生成到形象驱动的全链路实践,探索AI主播如何重塑电商直播生态。

核心内容:
1. 数字人直播的六大核心技术模块解析
2. 数字人相比真人主播的五大核心优势
3. 数字人形象、音色、人设三大属性的算法实现

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家



本专题是我们打造智能数字人的部分实践总结。我们将探讨六大核心环节:LLM文案生产赋予数字人思考和内容生成能力,如同其“大脑”;LLM互动能力则聚焦对话逻辑与拟人化交流,是实现自然交互的关键;TTS(语音合成)技术负责将文字转化为富含情感、个性化的“声音”;形象驱动技术让语音与表情、口型、肢体动作精准同步,塑造逼真视觉形象;音视频工程解决实时渲染、低延迟传输与高质量画面输出的技术挑战;最后,服务端工程构建稳定、弹性、高并发的后端支撑平台,确保数字人服务高效稳定运行。欢迎大家一起交流进步。

第一篇:淘宝直播数字人LLM推理优化:模型蒸馏与路径压缩实践
第二篇:淘宝直播数字人:LLM文案生成技术》
第三篇:淘宝直播数字人:LLM弹幕互动技术
第四篇:淘宝直播数字人:TTS技术语音合成技术》
第五篇:淘宝直播数字人:形象技术
第六篇:淘宝直播数字人:音视频工程技术

图片

背景


数字人直播是通过使用人工智能、计算机图形学、音视频等技术能力,合成数字虚拟人物,进行直播带货的场景,是AI数字人。淘宝直播数字人作为直播场景下的创新业务,依托自研AI算法和工程化能力进行规模扩展,近一年来也迎来了飞速的增长。相比起真人主播,数字人主播有以下优势:

  1. 【开播成本】相比起真人的直播,需要主播、助播和场控等角色,而数字人可以通过主播形象克隆的方案,只需要提前生成好直播素材即可开播,能有效降低商家的开播成本
  2. 【全天候开播】通过云端推流的方案,可以实现全天候24小时直播,有效的提高了主播的直播时长
  3. 【AI讲解文案】通过AI大模型的能力,自动生成商品讲解文案和图片素材,降低商家讲解成本
  4. 【实时互动】接入AI大模型,提供弹幕实时互动,主播视频回答用户提问能力
  5. 【展现力丰富】通过讲解商品时同步进行弹商品小卡、弹券等能力,提高用户观看体验,提升成交转化

数字人介绍


  2.1 直播数字人



直播数字人主要有三个核心的属性,形象、音色和人设,也对应三种核心的不同算法能力。
形象:数字人的视觉特征,包括面部表情特征,唇部动作和声音匹配等等,主要由主播上传一段录制的视频素材,再通过算法训练生成。
音色:数字人讲话的声音、语速、语调和情感饱和度等,目前主播可以通过上传音频素材或者选择直播回放场次,再通过算法训练生成。
人设:数字人生成文案话术的表达风格和热点,通过对真人直播回放数据进行分析,构造出主播独属的人设画像库,刻画出具备主播人设特点的数字人分身。

直播数字人可以将商品信息作为输入,使用LLM大模型的能力,生成对应的讲解文案,再通过TTS(Text-to-Speech,文本合成语音)将讲解文案生成对应的音频,再通过数字人形象的唇部驱动技术,最终生成一个数字人讲解的视频片段,最终将视频转换成直播流。

  2.2 核心算法能力

唇驱
数字人的唇部驱动技术是实现虚拟形象逼真表现的核心环节,商家通过录制自身视频素材进行训练,结合语音信号驱动生成匹配的数字人唇部运动,从而实现逼真的表现效果。

TTS
数字人TTS作为话术和形象的中间模块,围绕规模化业务目标,提高语音表现力并降低成本。针对数据语料收集、语音模型训练、韵律拟人化等应用难点进行技术优化:搭建直播数据处理管线与线上集群,通过优化ASR、数据过滤策略等提高语音数据质量和转写准确率;利用大语言模型优化正则化、音素前端模块,提高朗读准确率;通过精细化与细粒度的特征提取,对中英文混数据进行语义及韵律编码,预训练直播语音合成大模型,提升韵律情感表现力,实现具有直播味的TTS效果。

LLM
在传统的数字人直播场景下,数字人往往具备较浓的机械感,在口播文案和互动场景下的表达方式与真人有较大的差异;同时传统的直播形式较为单一,导致数字人直播间难以吸引用户持续观看和消费转化。淘宝直播数字人LLM主要通过几个方面来提升数字人话术效果。

  1. 通过对主播的历史真人回放进行分析,构造主播的人设画像库,克隆真人主播的人设化数字分身
  2. 打造通用口语化的口播讲解文案,在语气词、停顿、表达方式等方面拟合真人的口语化讲述特点
  3. 基于多模态的素材文案结合,结合商品的基础信息和商品的图片、视频信息,生成更加生动的素材
  4. 实时的个性化的主被动互动,基于用户画像和直播间实时状态,能够主动和被动的与用户交互

目前TTS和唇驱随着算法不断迭代,最优算法已经可以做到以假乱真的程度

  2.3 核心流程


接下来给大家介绍下数字人的关键流程链路:
B端主播侧:
  1. 主播如果需要使用数字人,需要先从服务市场进行下单,购买淘宝直播官方数字人服务,开通数字人使用权限
  2. 主播在服务市场下单后,跳转到直播中控台,提交视频和音频素材进行形象和音色的训练,等待小二审核
  3. 小二审核通过后,会创建形象和音色的训练任务,到训练集群,训练完成后生成形象和音色模型
  4. 主播在中控台上确认模型的效果,为当前数字人设置形象和音色效果
  5. 主播使用LLM大模型,对商品生成AI讲解话术,同时结合数字人的形象和音色,生成对应的视频素材
  6. 主播创建数字人直播,将生成话术的商品添加到宝贝口袋,再使用tbs端,开启数字人,进行推流,即可开始直播
  7. 如果主播购买的是高级版和旗舰版,则无需使用tbs端进行推流,直接使用云端推流,无需个人电脑在线

C端用户侧:
  1. C端直播展现形式和正常真人直播间一致,C端用户可在手淘、点淘客户端中观看数字人直播,购买下单数字人直播间的商品
  2. 主播开启弹幕回复功能后,如用户在直播间进行评论提问,数字人会使用AI大模型能力对用户的提问进行弹幕回复

工程链路介绍


我认为淘宝直播数字人的工程从开始发展到现在,主要经历三个阶段,从人工保障阶段->产品化阶段->智能化阶段的不断演进。
目前处于产品化->智能化的发展的阶段中


  3.1 人工保障阶段

直播数字人在业务发展初期,由于业务体量规模小,前期主要由内部几个商家先进行试用,在面对人员紧缺,同时需要快速验证线上效果的情况下,该阶段采用的方案是人工进行配置,包括主播名单开白使用,主播提交的素材,模型的训练、模型授权等都依赖产研的手动配置和操作。

痛点:
  1. 素材文件只能线下提交,无法统一管理审核标准,审核结果难以触达,素材和审核记录散落在各个表格文档中,无法统一管理
  2. 无自动化调度能力,将素材提交算法训练,需要人工导入素材再提交到机器,任务执行完成后再手动更新表格,任务失败还需要人工处理
  3. 新增主播开通数字人,需要人工进行配置多份数据,人工操作流程繁琐,人为操作容易失误、无法支持数字人进行规模化和商业化的发展

  3.2 产品化阶段

为实现数字人产品的规模化扩张,基于前一阶段的痛点分析实施系统性升级:我们从0到1构建全链路产品化服务体系,打通服务市场商业化通路并设计阶梯式定价策略,满足不同商家的诉求。同时建立标准化操作流程(从素材提交→素材审核→模型训练→素材生成→开播→直播公域质量评估),通过标准化和规范化整体流程,提升了80%以上的处理效率,有效降低商家的开播门槛,助力数千位商家顺利进行数字人开播。

数字人产品化阶段逐步建设起来后,整体流程都按照标准化和规范化的运行着,但是也带来了一些新的问题和挑战。

痛点:
  1. 目前主播从购买数字人服务->提交素材训练->生成数字人直播素材->开播的整体流程来看,链路和流程都比较长,商家的理解和操作成本都比较高
  2. 训练素材的审核,公域质量评估审核和日常商家主播答疑目前都依赖外包人力,遇到节假期或者外包人力变化,都很容易造成任务无法被正常消化,影响主播规模的进一步扩大和整体的开播效率

  3.3 智能化阶段

经过一段时间的主播调研和分析后,我们发现当前的产品的设计和体验上,还有较多可以提升的空间,产品能力的智能化发展,是后续需要重点规划和建设的方向,使用更多AI的能力,降低主播的开播门槛,提升消费者的使用体验,给平台带来更大的提效。

  1. 对于主播而言,目前的开播流程和链路还比较长,在使用和理解上还存在一定的成本,他们的诉求是能够做到低成本快速一键开播,我们可以建设智能化的开播Agent,降低主播的使用门槛和提升开播效率
  2. 对于消费者而言,在逛直播间时,希望能有一个直播的导购助手,能够结合消费者自身的特点,能够理解消费者的诉求,带来个性化的直播讲解内容,更智能化的体验
  3. 对于平台而言,通过算法自动化审核素材,自动化公域质量分评估能力,能够极大减少对外包审核人力的依赖,能更快更高效的支持更多的主播入驻和开播

素材自动化审核
原先的素材训练链路,需要人工对素材进行审核,审核用户拍摄的视频素材是否符合SOP要求,同时为了保证平台的生态,禁止不同的用户使用公模(同样的人脸)进行上传。

痛点:
  1. 主播提交素材的量级较多时,审核人力不足时,容易会出现审核任务堆积的情况,影响主播的正常开播
  2. 由于没有数字人FaceId人脸库,对公模的判断和筛选只能依靠人工记录,带来了极高的成本

因此,希望搭建一套自动化的素材审核链路,使用算法能力进行初步筛选判断,同时构建FaceId人脸库,来提升审核的效率。

整体链路:
公域质量评估自动化审核
数字人直播一般只能在私域直播,为了激励优质商家使用数字人,对满足一定条件的商家,对数字人的直播进行MOS质量评分,评分达到公域直播的质量标准后可以在公域开播。审核目前也依赖外包人力进行审核,将审核的得分结果进行加权、求平均等计算后,得到MOS评分。
痛点:
  1. 直播公域质量MOS评分的审核量级受到外包人力的限制,公域规模量级扩大后容易导致审核人力不足,审核时效慢的问题
  2. 人工评估结果具有较大的主观性,尽管已经将一场直播分发给到多个人审核后再取平均,仍会出现审核结果不稳定的情况,容易引发商家客诉

因此,希望搭建一套直播公域质量评分的自动化评估链路,使用算法能力对数字人直播进行打分,来提升审核的效率和稳定性。

整体链路:

一键快速开播能力
目前主播需要从0开始一场数字人直播,需要在主播中控台上多个页面进行配置,同时还要在tbs推流端进行推流,操作成本和难度比较高,我们可以在各个功能链路中融合进对应的AI工具, 通过使用开播的agent能力,串联各个流程节点, 在一些链路节点上(如选品、排品能力),接入算法能力进行提效,让数字人开播流程变得更加简单。

  3.4 业务架构

前台场景:
主播端:
  • 服务市场:主播对数字人商品服务的订购
  • 主播中控台:主播创建数字人、生成直播商品话术库、播前准备操作
  • 主播推流端tbs:主播进行数字人的开播推流操作
  • 旗舰版实时互动:云端机器推流端,实时直播推流和对C端用户进行实时交互

小二端:
  • 小二管理端:用于小二审核训练素材、私模库管理等

C端:
  • 直播间:用户观看数字人直播、购买商品和进行弹幕互动等

服务端的职责
业务支撑:
  • 数字人服务订购能力、多版本售卖定价体系、主播的权限管控
  • 数字人的创建和管理,模型资产库管理等
  • 数字人素材的生成管理,AI话术文案和生成视频素材
  • 数字人播前准备、开播校验、开播上报等能力
  • 主播素材审核、公域直播审核的能力

数字人工作台:
  • 机器资源管理,任务的灵活调度分发能力
  • 在线数据服务,提供算法内容生成需要的各种数据
  • 在线直播数据大盘,数字人直播快照
  • 算法升级平台,模型版本管理和素材版本管理
  • 生态治理,素材自动化审核,公域评分算法自动化打分

全链路:
服务端作为整个数字人体系中的核心环节,需要串联前端、tbs端、云端和算法工程端,保证整体数据和各种状态的有序流转

  3.5 数字人服务端工程相关问题

  • 3.5.1 服务端工程如何和AI结合

传统的服务端应用一般都是java应用,目前算法开发的主要语言还是python,python具有丰富的库、易学性、更好的社区生态支持的特点。目前数字人工程采用的方案是,服务端java工程 + TPP Python + Whale的方案

服务端java工程
  1. 负责和前端、TBS客户端、和云端的的交互,接受前台数据并保存,和客户端、前端采用mtop接口通信,和云端采用ACCS双向通讯;
  2. 负责任务的调度和编排,包括算法任务的创建、调度、参数构建、执行回调的处理
  3. 根据约定参数调用TPP Python,执行算法服务,由于形象和音色的推理和训练需要较长时间(分钟到小时级),通过采用异步执行的方案,通过定时任务调度触发,再接受TPP网关的消息回调获取结果。执行话术和互动文案的耗时较短(秒级),采用同步执行的方案,使用流式输出协议(SSE)进行输出

Tpp Python
  1. 负责算法工程服务,一般由算法工程或者算法同学维护
  2. 数字人的形象和TTS由算法同学提供SDK,算法工程同学负责进行环境搭建,提供SDK的部署和运维能力
  3. 数字人的话术&互动的算法工程由算法同学自己编写和维护

Whale
  1. 负责提供大模型的部署能力和服务,并提供kv-cache、高效推理等底层加速能力,由算法同学维护

  • 3.5.2 任务调度分发&扩展能力

数字人的异步任务主要有训练和推理任务,每种任务又有不同的类型和优先级,通过定时任务调度触发,首先需要根据任务优先级进行排序筛选,将任务根据不同的类型进行分组,匹配到不同的机器资源上,当前已支持将任务分发到Tpp Python、ECS上,未来还需要能支持不同算法平台等。

统一资源管理
将TPP、ECS和MVAP资源池进行统一管理,根据资源池的空闲程度进行任务的分发和调度,统一任务数据协议标准, 对不同算法平台进行适配,屏蔽各个算法平台的实现,将算法资源统一进行管理后,能够更加灵活的进行任务的调度和分发,大大提升了任务整体的吞吐效率

抽象任务策略
数字人的离线任务有很多种,形象训练有单人单训和通用唇驱类型,音色训练有 TTS-Base和TTS-Pro类型,推理任务有商品话术视频推理、问答视频推理等等。所以我们对异步任务流程进行通用抽象处理,使用模版模式抽象出通用任务提供的主要能力,再提供扩展点能力,通过策略模式进行路由,不同的任务类型仅需实现差异部分。能够快速支持不同任务类型的接入,减少重复代码40%-60%,目前已经支持10+场景的扩展。

  • 4.5.3 算法升级迭代

数字人视频素材主要由形象、音色和话术文案生成,我们的算法效果也在不断进行更新和迭代,为了让主播可以用上最新最好的算法效果,需要对主播使用的数字人的算法模型进行升级,对视频素材进行重新推理。

当前算法升级的痛点:
【模型升级慢】数字人算法模型升级后,数字人最新效果自然更新进度缓慢,无法生效最新的算法效果;
【人力成本高】算法版本升级只能人工对重点商家覆盖,覆盖全量商家人工成本极高;
【效果追踪难】算法版本无法追溯,模型和素材均无版本记录,效果无法追踪;

我们针对当前算法升级的痛点,搭建了一套数字人算法升级的方案:
【流程标准化】搭建算法升级自动化流转链路,拆分训练和推理流程,确保用户模型训练和推理的有序进行;
【模型可管理】建立算法模型多版本管理机制,记录算法迭代升级版本和明细,实现算法版本可追踪可溯源;
【效果可对比】建立算法模型升级效果对比机制,确保算法模型覆盖过程中,可视化观测算法升级效果;
【资源高效化】使用升级任务独立优先级机制,确保不干扰线上任务正常运行的同时充分利用低峰资源;

效果:
【人力提效】
搭建算法任务升级的自动化流程,原全量主播(1700+)的升级任务由20人日降低至1人日;
【资源提效】
通过独立任务优先级机制,期间机器利用率提升150%以上;

数字人升级流程:
升级重刷任务流转图:


  4.6 稳定性保障

直播数字人近一年业务发展迅速,在面对业务规模快速增长,算法高频迭代,工程链路复杂的挑战下,我们也做了很多稳定性保障的建设,确保了数字人业务规模快速增过程中无重大问题产生。

【异步任务监控告警】异步离线任务监控告警,任务调度失败,通过钉钉机器人进行监控告警

【Agent问题定位】创新性的使用Agent的方式搭建问题排查工具,快速定位现场,使用LLM初步诊断,问题定位效率提升95% 

【medialab数字人工作台】和测试共同建设一站式数字人工作台,整合数字人账号、设置、资产、播中大盘、直播信息、数字人话术等信息聚合查询能力,提高问题排查效率80%以上
数字人直播播中大盘:

数字人直播信息查询:

【全链路监控体系-建设中】搭建数字人全链路监控大盘,结合AI工程架构,集成客户端、前端、服务端、云端和算法的全链路监控体系。
【数字人直播间质量检测-建设中】和音视频团队共同建设的数字人直播间质量检测,包括黑屏、重复帧等。

未来规划


  1. 数字人智能化开播agent,助力主播快速一键开播
  2. 数字人领域建模设计,抽象沉淀数字人领域服务
  3. 数字人个性化推荐,打造用户专属个性化导购主播

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询