2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

利用公开知识定向提升大模型,腾讯优图联合上海交通大学提出新型开源增强知识框架

发布日期:2024-10-10 18:50:13 浏览次数: 2434
作者:腾讯优图实验室

微信搜一搜,关注“腾讯优图实验室”

(由上海交通大学和腾讯优图实验室共同提出)
近年来,LLMs 在众多任务和领域取得了显著发展,但为了在实际业务场景发挥模型的专业能力,通常需要在领域特定任务特定的数据上进行指令微调。传统的指令微调往往需要大量的有标注数据和计算资源,对于实际业务场景来说是很难获取的。另一方面,开源社区提供了大量现成的指令微调(SFT)模型和数据集。这些开源知识的存在能够帮助LLM在特定任务或者特定领域上进行适配和应用。但是,直接使用开源的各类SFT模型以及任务相关的数据集时,仍有以下关键问题需要解决:
1.少量有标注样本场景下,直接对模型微调或进行in-context-learning的效果往往不能满足需求,如何利用这些少量的业务样本和海量的外部知识(开源社区的模型与数据)对目前的模型进行知识补充,提升模型解决任务的能力和泛化性?
2.开源社区中有大量对齐的SFT模型和数据集可作为解决特定任务专业能力的良好起点,但这些SFT模型或数据集之间可能存在知识冲突。如何在这种情况下合理融合这些外部知识以避开冲突与竞争?现有工作往往聚焦于对已有模型组合方法的设计,无法最大化利用多个模型的知识储备。
3.在开源模型的评价上,现有工作仅仅从单一角度(如测试集上严格答案匹配的准确率)进行性能评估,而忽视了这可能带来的偏差。同时在开源数据的评价上,现有方案通常从通用数据的质量、复杂度等评估角度出发,没有结合任务导向性来实现数据精选。
针对以上关键问题,我们提出了一种切合业务实际的全新实验设置:K-shot有标签真实业务数据下的开源知识增强框架。在这样的框架下,我们充分利用K-shot样本来实现LLM的定向任务增强。具体地,我们设计了一套可轻松尺度拓展的LLM知识增强管线,并且充分发挥少量的K-shot样本在开源模型、开源数据筛选上的指导作用。在方案设计上,我们面临了以下挑战:


挑战1: 对于给定的感兴趣任务,如何充分利用有限的 K-shot 数据,以高效地确定具有最大潜力的模型。


挑战2: 如何从开源数据集中识别与 K-shot 任务相关性最强的一批指令数据,以便为 LLMs 注入、补充缺失的领域知识,同时避免过拟合现象。


挑战3: 当多个 LLMs 均在任务上表现出有效性时,如何构建一个自适应的模型融合系统,以更好地利用这些模型之间互补的知识,从而提高它们在 K-shot 任务中的协同性能并展现出比单模型更优的效果。


本研究提出了一种结合公开可用模型和数据集,针对特定任务提升大型语言模型性能的方法全流程。主要贡献包括:


1.提出了一种高效筛选具有最大潜力的模型的方法,综合推理困惑度,模型表现和模型间知识丰富度进行模型筛选,在有限的 K-shot 数据条件下,能够充分发挥已有模型的性能。


2.设计了一种从开源数据集中提取与感兴趣任务或领域相关知识的方法,通过相似性-多样性的数据筛选策略,为 LLMs 提供补充信息,降低过拟合的风险。
3.通过混合专家模型结构构建了一种自适应的模型融合系统,能够在多个潜在有效的 LLMs 之间实现知识互补和协同优化,从而在感兴趣任务上取得更好的性能。
前提储备
LoRA 模型库构建:从 Huggingface 选择 38 个具有代表性且广泛使用的指令数据集,对每个数据集进行预处理和 LoRA 微调来构建 LoRA 模型库。LoRA 模型库的引入为特定任务提供了可选择的预训练模型集合,并保证了实验的可重复性以及对比的公平性。
核心方法
1.K-shot 指导的专家模型筛选机制:提出一种专家模型选择方法,综合考虑模型的推理困惑度、在K-shot数据上的性能表现以及模型多样性来筛选最有潜力的模型组。我们发现,仅仅从推理结果的性能评估(通常用后处理+Exact Match等手段来计算)不能很好地预测得到模型在特定任务上的表现。这是因为模型输出的答案可能无法被完全后处理解析,导致模型被低估。我们发现通过答案的推理困惑度可以判断模型对某一个领域的理解能力,因此我们综合考虑了这两种手段。如下图,部分直接推理指标高的模型在微调后表现可能低于原先推理指标低的模型,但推理困惑度低的模型的微调后的性能会比原先困惑度高的模型更强。此外,我们还对模型组的组多样性进行了评估,即不同模型的知识的差异性要尽量的大,这对于混合专家系统的训练效果有较大提升。
2.混合专家模型初始化:使用混合专家模型结构来利用合理利用 LoRA 模型库,用模型筛选步骤中得到的模型做MoE模型的初始化,并训练Router使模型能够自动将不同的 token 分配给合适的专家,从而促进不同专家之间的协同合作。
3.K-shot 指导的先相似后多样的数据筛选机制:我们提出了一种相似性优先多样性感知的数据选择策略,通过对原始指令文本进行embedding计算,计算开源数据和K-shot数据相似度,选择与K-shot数据最相似的数据子集,并通过语义层面上的相似度去重来去除重复度过高的数据,保证数据的多样性。数据相似度-多样性的平衡是筛选过程中着重考虑的点,相似的数据能保证和当前任务的强相关性,多样性的引入能保持数据整体的丰富度和信息充分性,防止模型过拟合的情况的出现。
4.混合专家模型进一步调优:结合增强数据集和K-shot数据集来优化 MoE 系统的Router权重和专家权重,使用交叉熵损失来监督语言建模的输出。
实验设置
1.数据集:使用六个开源数据集(ARC-Challenge、ARC-Easy、PiQA、BoolQ、MBPP 和 GSM8K)作为评估集,从每个数据集的官方训练集中随机采样K条有标注的指令-响应对作为 K–shot数据。
2.基线方法:与五种基线方法(基础模型、随机选择模型、基于整个训练集微调的模型、在测试集上表现最佳的专家模型、对最佳专家进行微调的模型)以及其他 SOTA 方法进行比较。
实验结果与分析
1.与基线和 SOTA 方法对比,本文方法在各项任务上均取得了更好的性能。
2.通过可视化专家的激活模式,发现 MoE 系统没有等效地坍缩为单个模型,每个专家都对整体有贡献。
3.在模型选择的消融研究中,综合考虑评测性能、推理困惑度和模型多样性来选择有潜力的模型优于单一依赖 K - shot 性能或推理困惑度的方法,且推理困惑度比普通困惑度在模型选择中更有效。
4.在数据选择的消融研究中,基于相似性优先和多样性感知的数据选择策略进一步提高了 MoE 系统的性能,同时发现增加数据量时性能先上升后下降,多样性在平衡分布和缓解过拟合方面起着重要作用,不同的相似性采样技术对性能也有影响。
5.在对 K、N 和 k 的消融研究中,发现增加仅仅需要K=5,即5条有标注样本在感兴趣任务上的就可以取得不错的效果。专家候选者之间的差异对于维持任务导向的 MoE 系统至关重要。此外MoE 系统训练所需的数据量应根据任务进行优化,更困难的任务需要更多高质量训练数据。总的训练数据的数量不能太多,随着k的增加,模型性能会出现先上升后下降的趋势,证明和任务数据相似度较高的外部数据的引入才能对模型性能有所提升。从LoRA 模型库中选出的专家数量N不需要很多,证明和模型高相关性的适配器的引入才能增强模型的任务能力。
6.对MoE组合的有效性分析:将数据划分为All-correct,All-incorrect,Mixed三类数据,其中Mixed代表至少有一个专家做对且至少有一个专家做错(不同专家出现分歧)的样本,通过MoE的方式,不同专家的融合能超过最优的专家的效果,证明MoE组合方案的有效性。
讨论
1.本方法不依赖数据集和模型的元信息,这是本方法的一大优势。实际场景下,数据和模型的源信息可能会存在描述不详细、难以确定相关数据点等问题。开源模型的训练数据/训练细节很难具体获得。
2.该方法具有多任务适用性和易用性,大多数开源 LLMs 是 LLaMA 和 Mistral 家族的变体,可通过 Huggingface 获取大量模型,但不同 PEFT 方法之间计算模型间相似性可能不兼容。
结论
本文提出的方法通过 K - shot 数据在模型选择和数据扩增中发挥重要作用,优于现有方法,并通过消融研究验证了选择方法的有效性,展示了一种挖掘开放知识进行定制技能整合的高效流程。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅