支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


大模型如何算出最优价格?电商定价策略的变革实践

发布日期:2025-07-22 06:51:11 浏览次数: 1565
作者:京东零售技术

微信搜一搜,关注“京东零售技术”

推荐语

电商定价迎来AI革命!大模型如何智能优化价格策略,提升决策精准度?

核心内容:
1. 电商定价面临的三大核心挑战与解决思路
2. 基于大语言模型的RAG架构定价方案设计
3. 过程奖励与树搜索机制提升模型推理效果

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

在 InfoQ 举办的 QCon 全球软件开发大会上,本文作者进行了“因果推断与大模型融合:电商定价策略的变革实践”专题演讲。阐述了如何应用大模型方法应对电商定价挑战,优化商品定价策略,提升决策的科学性与精准度。期待与大家讨论交流、相互学习。

01
 
引言
 

随着电商的快速发展和价格透明度的不断提升,消费者在购物前往往会货比三家,挑选自己最满意的商品。为此,我们设计了一套模仿消费者购物行为的算法,基于相似品价格,为给定商品生成合理的价格建议。具体流程分为以下三步:

1.输入待核算价格商品描述;

2.从数据库中提取与该商品相似的商品及其价格;

3.根据相似商品给出价格建议,同时输出推导逻辑。

目前,该能力已应用于自营新品价格审核:每天都有大量新品上架,其定价由供应商提报,采销部门负责审核。由于商品数量庞大,审核成本高昂,接入该能力后,可显著提升人工审核效率。

02
 
基于大语言模型的建模方法
 

在建模过程中我们主要遇到如下难点:

1.覆盖全品类:需覆盖数百个品类,而不同品类的比价逻辑存在较大差异,例如某些需要进行单位价格转换,某些则需考虑材质差异对价格的影响。

2.商品信息复杂:商家常采用赠品、套装、专供型号等方式增加比价难度,增加了模型判断难度。

3.可解释性:比价过程中需详细阐述价格推导逻辑,明确参考了哪些相似商品及原因。

针对上述 3 个难点,大语言模型提供了解决问题的新思路:

  • 其具备丰富领域知识,能够处理不同品类的比价逻辑;

  • 能较好地理解复杂商品信息;

  • 相较于传统机器学习模型,大语言模型不仅能给出价格预测,还能提供解释说明。

应用 RAG(Retrieval-Augmented Generation)架构,设计的定价流程如下:

说明:

1.检索器:从商品池中基于文本相似度和 embeding 召回与目标商品最相似的竞品,并将其作为生成模型的 prompt 输入

2.生成器:使用推理模型基于相似品价格推导出主商品价格,提升定价的准确性与可解释性。

3.强化学习奖励设计:从三方面构建 reward:

  • 定价误差:模型定价与实际成交价的偏差尽量小。

  • 相似品之间价差幅度:相似商品间价格差异尽量小。

  • 属性提取:商品属性与规格识别的准确度。

03
 
通过过程奖励与树搜索优化模型效果
 

在推理模型训练过程中,链式思维(Chain-of-Thought,CoT)无法依赖人工标注,须由模型自动生成。此时,单纯“探索”会带来过多低质量尝试,单纯“利用”又容易陷入已有思路的局限。通过过程奖励与树搜索机制的协同作用,我们既让模型探索新的推理路径,又有效利用已学知识,显著提升了推理正确率和训练效率。

过程奖励与树搜索实现方式

在计算价格环节,我们会将待定价商品的描述与相似品的描述及价格构造成 prompt,并通过 LLM 生成预估价格。整个 CoT 过程分为以下 3 步:

•step 1:将单位价格进行转换,目标是通过单位价格的转换来缩小相似品之间的价差。使用相似品之间价格的变异系数来计算奖励(reward)。

•step 2:对价格进行排序,将价格计算简化为对不同商品价格高低的比较。奖励(reward)取决于模型排序结果与实际排序之间的差异。

•step 3:计算最终价格,给出最终报价。奖励(reward)依据预估价格与实际价格之间的差异来确定。

step 1:计算单位价格好的,先将所有参考商品的总价统一折算到“元/斤”:...{"unit": "斤","unit_count": {"B7": 150, "B1": 500, ...}}step 2:计算排序我现在需要处理用户的问题,帮助他们将商品A插入到集合C中,并确保单位价格从高到低排序。首先,我得仔细阅读用户提供的任务要求和输入信息,确保自己理解正确。...{"order": ["B7", "B1", ...]}step 3:计算价格假设A的单位价格预估为0.0450元/克,那么它应该插入在B4(0.04453)之后,B6(0.03993)之前。...{"price": 0.04}

预训练

在预训练阶段,由于 CoT 是通过特定构造方式生成的,我们首先通过设计提示词来生成一批严格遵循 CoT 模板结构的样本。随后,我们使用 SFT 对基座模型进行预训练,确保模型输出的 CoT 格式符合预期要求,同时提升三步推理中每步的合理性与准确性。

强化学习

由于本方法的步骤固定且层数较少,我们采用 BFS 策略进行 CoT 样本的扩展和收集。在每一步推理中,模型会生成多个候选解,通过过程奖励选取当前阶段中质量较高、潜在价值较大的候选保留,并将其作为下一阶段的扩展起点。这样可以高效收集到更多符合预期且接近最终价格的 CoT 样本,提升整个训练过程的效率和质量。

在强化学习的优化阶段,我们采用了 PPO 算法,并对 reward 环节进行了调整。传统 PPO 算法中的 reward 是通过蒙特卡洛回报计算:

该方法未引入过程奖励,导致 CoT 推理初期可能包含非常关键的 token,但由于等比例衰减,初期 reward 信号会非常弱。

而在我们的优化中,引入了过程奖励设计:我们在每一步中设置过程奖励,同时考虑后续步骤的奖励并将其累积到前面的步骤中,从而确保初期关键 token 也能获得合理的 reward。例如:

•step1 在其第 k个 token 处拿到来自 step2 的αkr2与来自 step3 的βk+tr3。

•step2 在其第 t个 token 处拿到来自 step3 的βtr3。

•step3 只拿自己的 r3。

最终的奖励计算公式为:

04
 
实验结果

 

准确性:之前的线上的传统深度学习模型是针对文具、办公用品等少数品类进行定制化开发的,包含了大量专门设计的特征,因此难以扩展到全品类,对从常见三级类目中随机抽取一定量商品进行测试,整体准确率仅为 44%。采用本文方法定价后,整体准确率提升至 74%。

速度:如果使用提示词工程和高质量推理模型可以实现类似效果,但推理速度通常需要 10 分钟以上,并且由于 CoT 推理经常陷入死循环,必须进行额外处理。而我们采用 7B 开源模型作为基座进行训练,最终训练得到的模型可以在单卡上进行推理,整体流程可在数秒内完成。

05
 
后续优化
 

端到端 RAG+LLM 联合训练

目前,相似商品召回与 LLM 的训练是分离进行的。因此,模型无法根据最终定价结果判断召回阶段哪些样本是正例或负例,也难以将“探索–利用”思路扩展到相似商品的召回环节。

引入对抗学习优化样本选择

目前主商品的选取主要依赖经验规则,例如从表现较差的类目中随机抽取商品。若采用对抗学习,模型可以在候选商品池中自动挑选主商品,对表现欠佳的部分进行重点训练,并将“探索–利用”策略贯穿整个流程,从而提升召回质量和整体定价效果。言模型在电商定价中的实践

06
 
相关工作介绍
 

DeepSeek-AI, Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., … Cobbe, K. (2025). DeepSeek-R1: Incentivizing reasoning capability in large language models via reinforcement learning. arXiv preprint arXiv:2501.12948.

链接:https://arxiv.org/pdf/2501.12948?

在 DeepSeek-R1 开发早期,尝试了过程奖励模型(PRM)和蒙特卡洛树搜索(MCTS)两种方法来提升推理能力,但未能取得理想效果。PRM 遇到三个问题:一是难以为各种推理问题定义一种通用的切分步骤方法;二是难以准确判断中间步骤的正确性;三是容易出现过程奖励滥用(hacking)。MCTS 的问题则在于:问题的潜在解答种类繁多,导致搜索维度呈爆炸式增长;训练一个既能对中间步骤有效、又较为准确的价值函数非常困难,同时很难通过强化学习提升价值函数的准确性。


Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., van den Driessche, G., … Hassabis, D. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484–489.

链接:https://www.academia.edu/74582983/Mastering_the_game_of_Go_with_deep_neural_networks_and_tree_search

首先,AlphaGo 利用约 3000 万条人类专家对局数据,对策略网络π进行监督学习,得到初始模型,其中策略网络的监督学习损失为

在自对弈阶段,对于每个局面 st,算法在当前搜索树中一次只扩展一个新子节点,所选动作由节点的价值估计 Q(st,a)和策略先验 P(st,a)共同决定:

扩展后,从该新节点模拟直至终局,统计胜负信号 z∈{+1,−1}作为 reward,结合价值网络在新子节点估值得到 值,也在回传阶段更新整棵树中经过节点的 值:

当一局对弈结束后,收集所有{(st,at,z)}迭代价值网络和策略网络。策略网络目标函数与学习人工棋谱一致。价值网络目标函数为:


Zhang, D., Zhoubian, S., Hu, Z., Yue, Y., Dong, Y., & Tang, J. (2024). ReST-MCTS: LLM self-training via process reward guided tree search. arXiv preprint arXiv:2406.03816.

链接:https://proceedings.neurips.cc/paper_files/paper/2024/file/76ec4dc30e9faaf0e4b6093eaa377218-Paper-Conference.pdf

每步切分方法:整条 CoT 推理按句子级切分,每一句话视为一个独立的推理步骤 sk

预训练:

策略网络:收集高性能模型生成的高质量 CoT 路径{(Q,s1:K)},对策略网络π做监督微调:

价值网络:以整条路径为单位,用正负路径对做偏好学习(DPO)初始化过程奖励模型 

MCTS 搜索流程

Selection & Expansion:在当前节点 p(前缀)上,先用策略网络生成 top-K 候选动作{ai},再按 PUCT 公式选出最佳扩展:

Evaluation (一次 Rollout):从新叶子 p′开始,进行贪心模拟。1)每步生成 top-K 候选句子{sk+1(i)}。2)用价值模型打分,取最高分分支继续,直到终局。3)最终记录该模拟返回路径上价值模型打分的最大价值。

Backup:将叶子估值沿路径回传,这块比较复杂考虑了深度惩罚、价值函数、父节点的 rollout 值。

RL 模型训练:

策略网络更新:执行多轮 MCTS,筛选最终答案正确的完整轨迹{(Q,s1:K)}用于 SFT 更新策略模型。方法与预训练一致。

价值网络更新:执行多轮 MCTS,收集所有结果正确和错误的路径。对路径上每个步骤做进行多次(比如数百次)rollout,然后统计答案正确的比例 rk。获得{pk,(pk)}用于微调价值模型。


Zhang, X., Du, C., Pang, T., Liu, Q., Gao, W., & Lin, M. (2024). Chain of Preference Optimization: Improving Chain-of-Thought reasoning in LLMs. arXiv preprint arXiv:2406.09136.

链接:https://proceedings.neurips.cc/paper_files/paper/2024/file/00d80722b756de0166523a87805dd00f-Paper-Conference.pdf

每步切分方法:CPO 将整条 CoT 推理按“Step k:” 前缀自动切分,每当模型在生成时遇到字符串 "Step k:" 就视为一步结束并停止该步的生成,下一步从新的前缀继续。

状态评估器:本文章有没单独训练价值网络,而是用一个 LLM+提示词实现了每步的打分。

始终用 BFS 构建思路树:每一层对所有活跃前缀同时扩展 top-K 候选,再保留评估器打分最高的 B 条进入下一层,直到达到终局。这一步贯穿了策略预训练和偏好数据收集两个阶段。

预训练:先把 BFS 搜索出的最优完整路径当作“专家示例”做一次 SFT:

偏好对收集 & DPO 微调:在同一棵 BFS 树里,对每个父前缀 p。选出下一步中被保留的那个 sk+以及剩下作为负样本的 sk−。用 DPO 同时利用好坏样本来微调策略网络:


Lightman, H., Kosaraju, V., Burda, Y., Edwards, H., Baker, B., Lee, T., Leike, J., Schulman, J., Sutskever, I., & Cobbe, K. (2023). Let’s verify step by step. arXiv preprint arXiv:2305.20050.

OpenAI 在“过程奖励建模”(Process Reward Modeling, PRM)方向上的最新成果。

核心动机:传统的 Chain-of-Thought(CoT)训练主要依赖对最终答案的“结果监督”(Outcome Supervision),无法对每一步推理提供细粒度反馈;而本工作通过对推理过程中每一步的“有助/无助”人工标注,验证了过程监督在提升多步推理可靠性上的巨大潜力。

PRM800K 数据集:团队首先用大规模 LLM 自动生成多条 CoT 解法,然后请标注员对每道题的每一步(以换行为单位)打“是否有助于最终正确”的标签,并将所有“前缀 → 标签”平铺成一个约 80 万条样本的公开数据集 PRM800K。

方法与效果:在 PRM800K 上监督微调得到的过程奖励模型(PRM),可以对任意中间前缀输出“从这里出发最终正确的概率”。监督微调的目标函数(以二分类交叉熵形式):

其中 p 是一个前缀,r∈[0,1]是对应的软标签,(p)是模型预测的“从这里出发最终正确概率”。

推理时,对生成的多条 CoT 解法,按每步评分再累积排序(Best-of-N),显著减少逻辑漏洞。对多条 CoT 解法进行 Best-of-N 排序时,给每条完整路径的最终评分定义为其各步正确概率的乘积:

其中 pk=(s1,…,sk)是到第 步的前缀,保留得分最高的解法输出。

在 MATH 题库代表性子集上,PRM 驱动的搜索后输出准确率达 78.2%,相比只用结果监督的模型提升明显。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询