微信扫码
添加专属顾问
 
                        我要投稿
语料:在机器人中一般是指“知识标题”和“相似问”统称语料(在多轮对话中称为“意图名称”和“用户话术”)
知识定位结构——知识标题,需要遵循一定的梳理逻辑:
将重点放在常见的用户问题上,在经过预处理的语料中,筛选出用户的真实提问来提炼知识标题;
意思相近的提问,如果可以用同一个答案回答,就放到同一个知识点的知识标题和相似标题中;
描述简洁,句意完整;
根据实际的用户问题颗粒度,把握知识的颗粒度;
举个例子:
| 类别 | 意义 | 知识标题标准 | 举例 | 
|---|---|---|---|
| What | 名词解释、现象解释 | 名词+是什么+? 现象+是什么意思+? | 流量特惠包是什么? | 
| Where | 路径引导 | 名词+在哪里+? | 话费在哪里充值? | 
| Who | 找人诉求 | 名词+是谁+? | 我的亲情号码是谁? | 
| When | 时间、时间节点、持续时间 | 名词+需要多久+? 名词+什么时候+动词+? | 花费充值多久生效? | 
| Why | 现象类、原因类 | 名词+为什么+现象+? | 话费充值了为什么还欠费? | 
| Whether | 判断类 | 名词+能不能/是不是+动词+? | 我能通过微信充值话费吗? | 
| How | 操作类 | 名词+如何+动词+? 现象+怎么办+? | 如何修改个人信息 | 
| How much | 多少钱 | 名词+价格是多少+? | 流量特惠包是多少钱? | 
| How many | 数量类 | 名词+有哪些+? 描述+多少个+? | 我可以绑定多少个亲情号码? | 
| 知识和语料获取来源 | 荐句工具 | 已有知识库 | 通过类目或意图穷举 | 工单 | 对话记录 | 
|---|---|---|---|---|---|
| 获取内容 | 输入用户话术或相似问法,机器人自动提供一批相似问 | 知识库中客户的各种问法,对应到相应意图 | 通过意图,人工模拟客户各种相似问法,每个意图模拟不低于20条相似问 | 用户提问记录和对应服务答复内容 | 提取聊天记录 | 
语料清洗的目的:将所有搜集到的语料进行清洗,语料清洗的目的是将冗长、不符合规范的相似问进行规范化,一边提升识别命中。
一条问题中包含多个问句,如问句表达的含义一致,应合并成一条知识标题。反之,应拆分成多条知识标题。
Case1
错误写法:我曾经开通过XXX业务,现在想取消可以吗?
原因分析:合并为一条知识标题(合)
正确写法:
1、XXX业务的取消方法
Case2
错误写法:开通XXX业务有什么方法?收费怎样的?
原因分析:拆分为两条知识标题(拆)
正确写法:
1、XXX业务的开通方法
2、XXX业务的资费标准
知识标题中主体部分的信息需要完整,如业务名称。并去掉五十级意义的前缀词和语气词。
Case1
错误写法:我想问一下,怎么办理信用卡,谢谢!
原因分析:去掉无实际意义前后缀语气词。
正确写法:
1、怎么办理信用卡
Case2
错误写法:临时额度调整
原因分析:在实际业务中,很多不同类型的银行卡都有临时额度调整,如A卡临时额度调整,B卡临时额度调整。因此需要特别强调“A卡”。
正确写法:
1、A卡临时额度调整
1、建议每个FAQ的标准问有不少于20条符合规范的相似问
2、建议每个多轮对话意图拥有20个以上表述,以及适当配置一些LGF规则
1、语料、相似问不可过长(不建议超过30个字)
2、标题不规范(含有空格、符号)
3、同一标题不能包含多个含义、语义
4、标题语义不完整,需要进行完善
5、语料、标题中剔除含有无意义词语、语气词
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
 
            2025-08-21
2025-08-20
2025-09-07
2025-08-21
2025-08-19
2025-08-05
2025-09-16
2025-08-20
2025-10-02
2025-09-08
2025-10-31
2025-10-29
2025-10-29
2025-10-29
2025-10-28
2025-10-28
2025-10-28
2025-10-27