轩辕大模型的实践与应用 | ML-Summit 2024

浏览次数： 1538

在人工智能的浪潮中，大模型正以其独特的方式重塑金融科技的未来。在4月26日的2024年全球机器学习技术大会上，度小满数据智能部总经理和技术委员会执行主席杨青分享了轩辕大模型在金融行业的实践与应用。此文将较为全面地公开介绍轩辕大模型在金融领域的落地之道。

杨青_轩辕大模型实践及应用.pdf

作者 | 杨青

出品 | 青哥谈 AI

重新定义金融：大模型引领范式革命

大模型引领金融行业向认知智能范式演进，带来“人机共生”的金融生态。金融行业经历从传统金融到互联网金融，再到智能金融的三个阶段。在传统金融阶段，行业遵循信息中介范式，金融机构主要通过人工进行服务，IT系统主要用于后台数据处理。这种模式下，服务效率受人为因素制约，是一种“人为主导”的模式。在互联网金融阶段，互联网打破了时空限制，使得金融服务能够触及更广泛的群体。这种模式下，线上化、移动化、平台化成为主流，云计算与大数据的应用使得人机优势互补，实现了"1+1>2"的效果。在当前的智能金融阶段，技术创新驱动业务变革，大模型重塑了业务流程，赋能了智能风控、智能经营等传统AI业务，大模型Copilot、Agent也得到了广泛应用。从传统金融到互联网金融再到智能金融，我们可以看到人机关系从“人为主导”到“人机协作”再到“人机共生”的演变过程。

在此背景下，金融机构需拥抱认知智能新范式，用大模型引领金融变革。具体而言，需要立足于大模型在理解、记忆、生成、知识和逻辑等方面的多维度能力来加速金融行业的数智化转型和变革。具体而言，可以在产品服务开发、智能化客户体验打造、业务流程重塑以及人机共生管理体系构建这四个方面应用大模型的能力，以达到交互自然化、决策协同化和执行自动化的应用目的。

构建金融大模型：技术融合与迭代升级

金融大模型从通识能力到场景专精的进阶之路，就如同一个人从中学生到职场人的成长过程。在“中学生”阶段，大模型需要接受通识教育，掌握广泛的语言理解和信息处理能力，为后续学习奠定坚实基础；而在“大学生”阶段则需要接受专业教育，在大规模通用文本数据上训练模型，使其深入了解金融术语、行业案例、专家经验和最佳实践，逐渐具备金融行业所需的专业能力；最终成为“职场人”，以岗位产出为导向，需要通过金融场景反馈，进一步提高模型的性能和适应性。三个阶段也分别对应了数据优化、金融增强、价值对齐和应用增强等不同模型构建阶段。

首先，利用数据驱动大模型智能突破。海量金融数据的筛选是一个“淘沙成金”的过程，轩辕团队打造了包括文本抽取、数据清洗和质量安全评估的智能化数据处理流水线，依次通过规则过滤、模型过滤、去重过滤和质量过滤的步骤筛出了原始中文数据中32%的数据精华，构建了高质量的模型训练数据，包括10TB通用语料和1TB的金融语料。

团队打造的质量模型库包括文本质量判别模型、知识性判别模型和内容结构判别模型，通过全方位的数据质量严格把控，为模型训练保驾护航。人工评测证明，过滤后数据质量大幅提升48%，从而推动模型性能显著提升。

此外，团队特别铸造数据安全“铜墙铁壁”，基于多领域内容安全标准搭建业内领先的内容安全系统，高效达成恶意识别，牢牢守住金融发展的安全底线。系统结合了主动学习的标注流程和大模型自动对抗，以提升数据生产效率和内容安全系统的防控能力，有效过滤多领域敏感恶意内容至1%以内。

其次，通过预训练模型以搭建金融AI底座。中文大模型需要考虑词表构建的问题，因为单字可能需要多个Unicode字符来构造，导致解码速度变慢和编码序列变长。考虑到大词表有利于长文本建模和推理效率，团队采用压缩率高的词粒度扩展的方式，加入了7k的中文字母与25K的中文词，使得新词表大小达到64k。预训练具体分为两个阶段：在第一阶段，仅更新模型的词表特征及解码线性层，使模型适应新加入的词表，同时纠正原始的解码方式，数据分布、类型与原始模型报纸一致，中英文数据各占50%；在第二阶段，对模型进行全参数更新，提升通用中文和金融领域数据的占比，其中中文占60%、英文占25%、金融领域占15%。通过两阶段的预训练，可以使领域大模型收敛更稳定。数据配比直接影响基座模型的训练质量，通过调整数据占比和增加中文、金融数据，我们预期模型的英文能力保持、中文知识增强和金融能力提升，而最终实际效果显示三项能力都随训练过程提升了。

此外，大模型的长上下文能力是金融场景落地的重点要求，团队也尝试实现了100k的模型上下文长度并总结出了“依赖外推”“外推+短续训”和“外推+长续训”三种不同实现方式的实践经验。

再者，通过指令微调以构建全方位金融认知“大脑”。在数据构造方面，遵循低成本和高质量的SFT数据构建目标，采用自研的数据生成方法Self-QA，通过知识引导的指令生、机器阅读理解、修建与过滤三步走策略来构造数。在数据生成方面，指令数据包括通用领域和金融领域，其中通用领域占80%，包括常识百科、创意生成、代码编程、安全无害、逻辑推理、总结摘要、数学计算和信息提取这8大类和50小类；而金融领域指令数据则包括金融百科、金融计算、研报解读和客服话术这4大类及其20小类。通过混合微调和指令微调结合，可以兼顾大模型通用与金融能力，避免灾难性遗忘。

最后，通过强化学习实现模型的“自我超越”。强化学习是一种机器学习方法，通过与环境交互来学习最优策略，以实现模型的自我超越。相比传统的监督学习方法，基于人类反馈的强化学习（RLHF）可以从环境反馈中学习，它可以探索更多更广的样本，同时增强正向案例和抑制负向案例，损失函数基于优势值的Soft Label，这些特点都能使模型具备更好的泛化性。通过进一步设计奖励模型，克服PPO训练中的难点并创新训练，模型强化学习效果显著，生成更好地对齐了响应方式、语言风格和回答内容三方面的人类偏好。

为了科学评估模型性能，精准指引优化路径，团队构建了全方位的模型评测体系。以不同模型间的“横评”看差距，以同一模型在不同阶段的“纵评”看提升。评测覆盖预训练阶段、指令微调阶段和强化学习三大阶段，每个阶段都有相应的评测指标，预训练阶段关注训练是否存在异常和基座模型的质量，指令微调阶段关注对话能力是否满足和泛化能力是否足够，强化学习阶段关注安全性是否提升和有用性能否保持。评测手段包括实时评测和阶段评测，实时评测使用CheckPoint自动触发评测流水线，阶段评测采用“自动+人工”的全方位评测体系，构建智能化评测工具和规范对于提升评测效率和一致性十分重要。基于团队评测实践，我们开源了「FinanceIQ」大模型金融自动评测集，FinanceIQ专注中文金融领域任务，涵盖10个金融大类，36个金融小类，总计7173题。主要涵盖了注册会计师（CPA)、税务师、经济师、银行从业资格、基金从业资格、证券从业资格、期货从业资格、保险从业资格（CICE）、理财规划师几大权威金融领域考试。

金融大模型落地：现实挑战与破解之道

大模型将为金融行业创造价值增量，但落地过程中面临重重挑战，主要包括金融知识挑战、金融能力挑战和应用成本挑战。在金融知识挑战方面，大模型可能会出现幻觉问题、准确性问题和遗忘问题，导致缺乏可用性和可靠性。在金融能力挑战方面，大模型需要具备逻辑能力、推理能力和决策分析能力，但这些能力可能需要人工介入才能有效发挥。在应用成本挑战方面，大模型需要消耗大量的GPU算力成本、适应成本、推理成本和维护成本，这使得其应用成本高昂。

为了应对这三大挑战，「轩辕」大模型在检索增强（RAG）、智能体（Agent）和模型量化技术上都展开了有效探索，以破解金融大模型落地难的问题。

金融大模型价值创造：赋能、创新与变革

整体上，基于大语言模型的理解、生成、逻辑和记忆能力，金融大模型的核心能力主要体现在个性生成、交互增强、知识丰富和预测分析。金融大模型通过重塑金融服务、理财、运营、营销、办公和研发等领域，由点到面重塑金融价值链：在金融服务方面，通过客情标签和话术推荐，实现从降本增效到价值创造的转变；在理财方面，通过分析师助手和理财顾问，提供专业级理财分析；在运营方面，通过NL2SQL和投研投顾，实现端到端的运营新模式。在营销方面，通过传播洞察和智能投放，提供一体化营销工作坊。在办公方面，通过智能搜索和知识助手，提高员工的生产力。在研发方面，通过代码生成和单测生成，助力研发提质提效。

「轩辕」大模型：跨越认知，走向AGI

为了应对大模型在金融场景的落地挑战，向全行业分享实战经验成果，我们开源了「轩辕」系列大模型。度小满「轩辕」大模型是国内首个开源中文金融大模型。2023年5月，千亿参数规模中文大模型“XuanYuan-176B”开源发布。2023年9月， “XuanYuan-70B”在C-Eval和CMMLU两大权威榜单上位列所有开源模型榜首。2024年3月，「轩辕」全新发布了12款金融大模型。其中包括6B、13B、70B参数的基座模型、对话模型、int4/int8量化模型，并实现完全开源，供广大开发者下载使用。

「轩辕」大模型在金融领域内容理解和生成上能力卓越。在金融自动评测集FinanceIQ测试集上，XuanYuan-70B-V2展现出了超过GPT-4的水平，表现出了专家级别的金融知识能力。而在解决实际金融任务的能力上，金融专家的人工评测结果显示，各个参数尺寸的轩辕大模型均具有“以小搏大”的实力，达到了自己2—5倍参数量的模型水平。「轩辕」不仅在金融领域成绩优异，模型能力覆盖了数学计算、场景写作、逻辑推理、文本摘要等多个通用能力维度，在包括MMLU、CEVAL、CMMLU、GSM8K、HumanEval等主流评测集上表现出色，在多个中文评测榜单上的成绩甚至超越了GPT-4。

「轩辕」开源地址：https://github.com/Duxiaoman-DI/XuanYuan

▶大模型刷新一切，程序员面临迭代危机？

▶30 多年前被 Windows、Linux “灭掉”的操作系统 MS-DOS 4.0，微软在 GitHub 上开源了！

推荐新闻

完全开源大模型OLMo，公布代码+数据集+训练全过程

OLMo项目是由艾伦人工智能研究所（AI2）推出的一个真正完全开源的大语言模型（LLM）项目。这个项目的全称是“Open Language Model”，强调的是其彻底的开源性质。

只用 13 天，OpenAI 做出了能听、能说、能自主决策的机器人大模型

资深机器人专家 Eric Jang 不久前曾预言：「ChatGPT 曾在一夜之间出现。我认为，有智慧的机器人技术也将如此。

OpenAI测试GPT-4.5，上下文长度拓展到256K！

尽管GPT-4.5的传闻一直存在，但是没有任何地方透露过相关的消息。而最新的OpenAI官网似乎已经悄悄上架了GPT-4.5-Turbo的信息。尽管目前网页被删除，但是Bing检索保留了相关缓存并可以在Bing Chat中回答。

Chat GPT不知怎么问？102种行业的Prompt提示词大全来了

1、标题生成我想让你充当标题生成器。请以[文房四宝]为主题，[传承、匠心]为关键词，你将生成五个吸引人的标题。要求保持标题简洁，不超过[20]个字 2、文章续写你是一位文案助理，以[星期日早上，我坐在床上读着《安徒生童话》中《卖火柴的小女孩》。]为开头，续写一篇小学生日记，要求表意清晰，主题鲜明，分段表述 3、文章开头现在写出一篇文章的开头，文章主题为[如何看待中小学生沉迷网络游戏]，要求文字简洁明了，具有吸引力，运用具体案例和数据

ChatGPT等生成式AI，对小型企业帮助非常大！GoDaddy发布报告

近日，全球最大创业者服务平台GoDaddy首次发布了，2023年美国小型企业生成式AI应用调查报告。本次，GoDaddy对全美1,003家小型企业进行了深度调查，以查看他们对ChatGPT、Bard、DALL-E、Stable Diffusion、GitHub Copilot X等生成式AI的应用与看法。数据显示，ChatGPT以70%的应用率，成为美国小型企业应用最多的生成式AI产品。38%的受访者在过去几个月里尝试过生成式AI。