微信扫码
添加专属顾问
我要投稿
AI应用落地不再只是技术驱动,需求场景导向将成为主流,本文为你梳理从需求到落地的全链条方法论。核心内容: 1. AI应用落地的三大阶段与8个关键步骤 2. 高价值场景的识别标准与需求分析方法 3. 行业大模型应用落地的四大关键成功要素
过去一两年,AI技术发展飞速,夸张地说,“AI一天,地上一年”,基本上是技术在牵引着供给的变化。随着AI技术越来越成熟,AI的应用会越来越多,技术导向会转为需求场景导向,或者需求、技术双导向。技术导向一般是由一小撮厉害的人物引领,需求场景导向才是众多IT人士能做而且需要做的事情。
结合我自己的知识学习和工作实践,今天从全链条的角度梳理一下从需求场景出发的AI应用项目落地方法论,既是自我总结,也是指导未来。先拉出来一条骨架,以后逐渐填充肉身,后续逐渐给大家分享更多展开的概念内涵、技术细节、具体实操及落地案例。
AI应用落地分为三大阶段共8个子步骤,分别为:
不同阶段和不同步骤可以按需选择、灵活组合,满足不同的用户需求。例如只需要行业大模型方案的设计咨询服务,则第一阶段可满足需求;如果通用大模型已经可以满足用户需求,则第二阶段的数据集构建、模型训练等步骤可以被跳过;如果需要利用知识库增强大模型能力,则重点加强知识库构建和相关的向量化、RAG等工作。
行业大模型应用落地过程中需要重点关注:高质量行业数据的积累,行业工具和能力的复用,数据和二开人才的培养,模型、数据的安全合规。
一、规划设计阶段
1、需求分析
【参与人员】:业务专家、项目经理;
【工具链】:AI应用开发交付工具;
【输出物】:需求文档
确保研发解决实际问题,符合实际需求。包括需求场景功能分析、竞品产品分析/市场空间判断等。
需求的来源主要分为“自上而下战略目标”和“自下而上一线痛点”两类。“自上而下”讲的是从顶层战略解码的需求,构建“政策传导—目标拆解—能力对齐”链路;根据企业使命和职责定位,聚焦企业核心业务,瞄准战略意义强、经济收益高、民生关联紧的战略性高价值场景。“自下而上”讲的是从业务末梢感知的需求,构建“痛点采集—价值筛选—能力匹配”闭环;面向知识库、会议助手等通用办公场景开发AI应用,服务一线员工,加速实现AI普惠。
1.1商机获取与需求调研
AI应用场景可以划分为这几大类:
(1)业务流程重塑,研发、供应链、生产等场景,比如AI药物助手、企业物流预测;
(2)运营效率提升,IT、办公、营销、运营等场景,比如文案撰写、代码助手、员工助手;
(3)产品价值创新,用生成式AI重新定义产品模式,比如个性化AI助手、AI金融顾问;
(4)客户体验提升,售前、售中、售后全流程,比如用车助手、智能导诊、智能客服。
高价值的场景一般是:
(1)任务重复性与规则性显著,如流程标准化程度高、需要识别复杂模式等;
(2)业务价值提升空间大,如效率和成本敏感领域、个性化与智能化服务需求;
(3)数据密集性高,如海量数据积累、数据关联性强;
(4)风险与合规可管理,优先容错率高的场景,数据安全与隐私可控场景。
1.2可行性分析
AI应用落地需要关注:是否缺少合适的落地场景?数据可用性和数据质量如何?大模型能力和应用成熟度怎样?工程化能力是否足够?数据安全问题怎么解决?计算资源够不够?AI人才是否充足?
需要明确AI应用落地的目标,增加了多少收入?降低了多少成本?提升了多少质量?增加了多少效率?需要有客观数据支撑,量化评估。
可用如下模型进行可行性分析:
1.3 场景痛点梳理与功能定义
在AI应用规划设计时要关注企业战略和业务目标,要有业务导向思维,AI大模型的价值通过具体的业务场景体现。AI的工程策略可以长远规划与分步实施,通过“典型场景—扩展应用—全面覆盖”三阶段展开。
有一些场景痛点样例给大家作为参考:
(1)提升业务效率,如客户服务,使用AI客服机器人;
(2)降低运营成本,如运营自动化,AI优化库存管理;
(3)增加客户体验,如电商平台通过用户行为分析,提供高度个性化的商品推荐;
(4)促进产品创新,如金融产品用大模型生成定制化的金融服务;
(5)提升数据价值,如用户画像,建立精细化的用户画像;
(6)强化决策支持,如市场预测,利用AI分析市场趋势,辅助企业制定未来的投资和扩张战略;
(7)可持续发展与ESG战略,如碳排放管理,监控企业的碳排放,优化能源使用。
通过对业务流程的分解,精准发挥AI的效用,比如一个故障处理的案例。
再以一个软件代码研发流程为例进行分解,利用AI进行了提效。
2、总体方案设计
【参与人员】:业务专家、软件工程师
【工具链】:评测工具、算力管理工具
【输出物】:技术文档
构建安全合规的技术路线和系统架构。通过全链路规划和场景优先策略,实现模型与场景适配,以优化性能、成本和用户体验,从而提升企业业务效果和AI应用的适应性。其中需求规划的重点是全链路规划、应用场景分析与识别及智能技术选型。
总体方案设计面向全链路规划全面展开,包括如下内容:
(1)业务目标分析及明确:确定应用大模型的主要业务目标,明确预期的量化成果,以及目标如何分配到各个环节当中。
(2)AI应用场景分析与识别:明确AI大模型将用于哪些场景,细化场景需求。比如运营商场景(云网大脑、智能网管、5G新通话、防欺诈、异常话务、不良信息),能源场景(变电巡查、智慧加油站),科研场景(仿真、经济分析),金融场景(理财顾问、调研报告),医疗场景(智慧问诊、健康评估),工业场景(材料分析、机器人),政府场景(智慧城市、智慧政务)。
(3)数据需求分析:确保数据足够全面且具备代表性,如文本、语音、图像、视频、3D等。
(4)技术可行性分析:确认大模型是否能够支持特定的功能需求,如模型选型(GPT、GLM、LLaMa)、IDE研发环境及语言(VSCode、PyCharm,C++、Python)、集成开发框架(LangChain、LangServer、LangSmith)。
(5)算力需求分析:分析需要算力资源配置,包括算力池化(负责对异构AI算力卡的资源抽象,实现算力的按需切分、按需求调用、资源超分等能力,AI业务无需修改即可透明使用算力资源)、算力调度(定义AI算力的核心能力,通过内置的多样化调度引擎,提供丰富的调度策略,满足业务人员高效、智能、灵活使用AI算力)、算力运维(主要负责自身组件的高可用管理,节点管理、运行时自动注入等,通过此可以极大简化运维人员对整个数据中心AI资源的统一监控、运维工作)。
(6)成本与预算分析:估算模型开发、部署和维护的总成本。
AI应用设计主要包括五个要素:模型选择与优化方案、算力基础设施与架构、数据集建设方案、周边应用系统集成方案、安全与隐私保护方案。强调业务需求理解、数据治理、模型优化与部署、监控与运维的重要性,并提出平台化、业务化、中台化的转型原则和迭代原则。
(1)转型原则:业务需求理解明确AI应用目标和价值;数据治理里高质量数据是AI应用的前提;模型优化与部署要求选择合适算法进行优化;监控与运维需建立完善的AI监控体系。
(2)迭代原则:以人为本AI为辅,AI作为提升生产力的工具;上下文智能化,具备上下文感知能力;数据驱动的闭环反馈,AI工具不断适应和改进;持续学习与优化,根据实时数据不断调整。
2.1基座模型选型
可选的模型很多如DeepSeek、千问等,按过往以及目前AI应用常用的模型规模总结了几类,如:72B云端高性能模型、14B高性价比主流模型、7B Int8端侧模型、Chat版本微调基模、未来趋势的多模态模型。
7亿-1000亿参数之间的模型,质量差距再显著缩小,最终趋同。闭源模型性能较好、持续更新、有技术支持,但成本高、灵活度受限、供应商锁定。开源模型成本底、灵活性高、社区支持,但技术门槛高、性能存在一定局限性、社区依赖。可按需选择,其中对于开源模型选择,要注意判断模型能力与任务匹配、模型参数序列的完整性、社区支持度、许可协议等。
从成熟度上,大语言模型成熟度最高,语音模型及视觉模型成熟度较高,多模态目前为中等成熟度,但在快速进展中。目前实际业务中主流是将语言、语音及视觉模型组合使用,未来将会由统一的多模态模型进行管理。
模型细分版本包括Base模型(基模,未经过指令微调得预训练模型)、Instruct模型(指令微调模型,能够理解并执行明确得任务指令)、Chat模型(对话优化模型,在Instruct模型基础上进一步微调,优化其多轮对话能力)。
(1)Base模型:灵活性高,适合基础任务和研究实验,资源消耗少;但不擅长直接任务执行,需要复杂Prompt;适用场景是通用任务、低资源开发。
(2)Instruct模型:理解指令能力强,微调后效果直观;但无上下文记忆能力,适合单轮任务;适用场景是单轮任务,如问答、总结、分类。
(3)Chat模型:能处理多轮对话,支持上下文记忆,适合人性化互动;但训练数据需求大,微调耗费资源;适用场景是多轮对话,如智能客服、教育助手。
模型并不是越大越好,越大需要算力也越大、数据要求越高,目前14B用得比较多,端侧(手机、网关)也用得比较多。模型参数大小选择可匹配任务复杂度、考量硬件配置及成本以及采用混合模型策略。
2.2算力资源规划
目前算力市场的格局是“训练算力,巨头垄断;推理算力,百花齐放”,训练算力与推理算力是AI模型生命周期中两个截然不同的计算阶段,可以简单理解为:训练算力通过海量数据学习模型参数,推理算力用训练好的模型执行预测任务。
大模型在云、边、端的部署,提出了更多元的算力要求。推理芯片种类繁多,生态、性价比是用户选型的关键依据,比如Nvidia的消费级GPU、Intel支持AI加速的CPU、AWS自研推理芯片、国内外科技企业各种AI加速芯片。
除了算力规划外,AI应用还需要云资源的规划。国家信息中心信息化和产业发展部《智能计算中心规划建设指南》提出,智算中心是基于最新人工智能理论,采用领先的人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施,通过算力的生产、聚合、调度和释放,高效支撑数据开放共享、智能生态建设、产业创新聚集,有力促进AI产业化、产业AI化及政府治理智能化。
智算资源一般是公有云+私有云自诉案资源混合模式,上层依次是智算算力平台、训练推理平台,强化AI算力基础设施运维及安全保障,为AI应用体提供算力资源。
2.3研发路线与架构设计
典型的技术路线包括如下几种:
(1)提示词工程
适用场景:快速检索应用,如对话系统、文案创作等,优化提示词可以显著提升生成内容的质量。
代表技术:零样本提示Zero-shot、少样本提示few-shot、思维链提示CoT。
实现特点:大模型不需要调整,非常轻量化的技术开发,依赖通用大模型自身知识,一般与其他方式联合使用。
(2)检索增强生成
适用场景:需要引用大量外部知识,如问答系统、专业咨询等,生成内容准确性高,保障自有数据所有权。
代表技术:文本嵌入Text Embedding、稠密段落检索DPR、向量数据库Vector Database、重排序Re-ranking。
实现特点:大模型不需要调整,难度不大、性价比高,利用外部知识库,目前使用广泛。
(3)微调
适用场景:希望通用大模型在行业应用场景表现更好,具有较好的行业泛化能力。
代表技术:有监督微调SFT,低秩调整LORA,适配器层Adapter Layers。
实现特点:会局部调整大模型,较复杂,高质量数据集是关键,将行业知识内化到大模型中,目前使用广泛。
(4)继续预训练
适用场景:通过大模型缺乏目标任务相关知识和能力,专业性高,能准确理解并执行特定任务。
代表技术:无监督学习UL、自监督学习SSL、人类反馈强化学习RLHF。
实现特点:要全面调整或构建大模型,投入大、周期长,大量学习和掌握行业知识,目前较少使用。
对于最近比较火的Agent智能体,它的实现难度随场景业务复杂度递增而提升,用户可基于场景特征,选择不同智能体构建方式。
场景分类 |
智能体应用类型 |
趋势 |
通用知识生成: 依赖互联网通识知识 |
大模型+prompt: Prompt编辑 智能体调用大模型 |
基于知识库减少幻觉问题 |
专业知识生成: 一栏专业、实时场景知识 |
大模型+知识库: 知识库创建 知识库管理 智能体调用知识库 |
|
通用任务执行: 依赖专业知识、执行业务流程 |
大模型+工具: 插件创建、发布 外部插件接入 能力接入 智能体调用插件 |
扩展能力打造智能体应用 |
复杂业务: 业务流程复杂、涉及应用系统交互 |
大模型+工具+工作流: 工作流创建、发布 工作流调用知识库 智能体调用工作流 |
|
海量工具库调用: 能够调用不同来源,各种功能的海量工具 |
大模型+MCP Sever 平台支持MCP协议 支持海量MCP Server 工作流调用MCP Server 智能体调用MCP Server |
编排多智能体打造复杂应用 |
多专业复杂业务: 涉及不同类型知识,多个智能体的协作 |
多智能体: 多智能体创建 多智能体调用插件 多智能体调用工作流 多智能体智能编排 多智能体协作 |
在方案阶段需要明确好研发落地的团队分工,主要分为用户侧和实施方,具体环节和要求如下。
环节 |
用户侧 |
实施方 |
1、明确范围:确定场景功能及效果目标 |
收集大模型使用场景 每个场景功能 每个功能效果要求 |
提供相关咨询意见给客户 提供相关案例参考 确认客户需求可行性 |
2、选择方案:选择模型、工程方案及数据方案 |
确定数据内容及质量 确定评测集及评测标准 确定模型方案 确定技术、数据及工程化方案 |
提出数据需求 提出验证数据集方案 设计模型选择方案 设计技术、数据及工程化方案 |
3、训练调优:整理数据,训练模型 |
提供数据 提供计算资源 协调安装部署与集成 |
采集和清洗数据、按需处理 训练模型及调优 完成代码开发及集成工作 |
4、评估效果:效果评测 |
确认评测结果 批准上线运行 |
在评测集进行评测 达到目标则上线 否则跳转第3步重新训练 |
5、运行监督:监督运行效果,收集反例数据 |
审核确认bad case |
按照数据飞轮方案设计,收集bad case进行分析 |
6、持续优化:通过数据迭代升级模型 |
批准新一轮模型训练和调优 批准上线新能力 |
基于数据飞轮产生数据跳转到第3步进行训练调优 如需新增功能则跳到第1步 |
二、训练推理阶段
3、数据集构建
【参与人员】:数据工程师、业务专家
【工具链】:数据工具
【输出物】:高质量数据集。
构建高质量训练数据,提升模型性能和泛化能力。高质量数据集发展的规模、复杂度、专业性不断提升。截至目前,发展历程可以大致分为如下几个阶段:
阶段 |
1深度学习模型 |
2大语言模型 |
3多模态大模型 |
4Agent应用 |
数据特征 |
单模态、强监督、百万级 |
文本、无监督、亿级到十亿级 |
多模态、弱监督、十亿级图片、千万小时视频 |
环境感应、思维链 |
应用场景 |
图片分类、场景识别 |
语言理解,语言生成 |
图生文、文生图、视频生成 |
任务规划、工具执行 |
典型案例 |
ImageNet系列数据集 |
Common Crawl、The Pile |
Protein QA(蛋白质多模态数据)、sharegpt4v |
Drive LM(特斯拉FSD数据)、webarena |
大模型构建的不同阶段对数据规模、质量的需求也各有侧重,预训练阶段主要关注数据集是否全面充足,微调和强化学习阶段则关注数据是否对齐人类认知偏好,RAG构建阶段则侧重数据的专业程度。
模型 |
基础模型(Base LLM) |
行业模型/领域模型 |
||
|
预训练(pretrain) |
监督微调(SFT) |
强化学习(RLHF) |
SFT/检索增强(RAG) |
训练目的 |
压缩世界知识 |
能和人类交互 |
对齐人类价值 |
增加行业能力 |
需求数据 |
世界海量知识 |
人类认知 |
人类偏好 |
领域知识 |
数据内容 |
互联网多年沉淀: 各类公开网页 书籍期刊 百科 代码 专业问答 |
人类编写的问答对,如: 问:什么是大模型答:大模型是一种大规模的自然语言处理模型…… |
人类对模型答案打分排序,如: 问:什么是大模型 答案1、答案2、 答案3、答案4 |
行业积累的行业经验和专业知识,如: 法律:法律法规、裁判文书、案例分析、仲裁文书、法学论文 医疗:药品说明书、诊断报告、医学论文 |
数据特点 |
广 |
齐 |
专 |
(1)预训练数据处理关键流程:
原始数据--》通用数据处理(数据清洗、数据去重、敏感内容过滤等)--》高质量数据集
粗加工:解决原始语料中无效字符、样本重复和敏感信息等问题,提升数据基础质量。
(2)微调数据处理关键流程:
原始数据--》通用数据处理--》场景数据处理(数据增强、数据标注、场景识别等)--》高质量数据集
中加工:除提升数据基础质量外,还通过增强和标注等解决知识未对齐和数据可靠性低问题。
(3)行业知识库处理关键流程:
原始数据--》通用数据处理--》场景数据处理--》知识库构建(信息提取、文本分块、向量库构建等)--》高质量数据集
精加工:基于通用和场景数据处理后的数据构建行业知识库,提升数据集的专业性和精准性。
3.1数据采集
通过流批采集、爬虫采集、数据蒸馏、数据采买、数据回流等手段实现数据采集,引入前沿技术加工处理数据。
数据寻源包括:内部数据、互联网数据、开源数据、标注数据、数商数据、外部企业数据、蒸馏数据、回流数据等。
3.2数据预处理
数据预处理主要包括过滤、去重、隐私去除、字符化等步骤,将海量原始数据转换为模型能够理解的编码token后,开展大模型预训练工作。基本处理步骤:
(1)原始数据采集,主要包含公开网页信息、书籍、代码等;
(2)对原始数据中的无效符号、错误文字等进行滤除;
(3)针对原始语句、文档和集合等存在的重复信息进行去重;
(4)针对原始数据中存在的隐私数据(如人名)进行去除;
(5)将原始的字符串数据token化,转换为机器能够理解的编码;
(6)编码后的数据能够进行模型预训练。
通用数据预处理,确保数据可用、不冗余、格式正确、图像分辨率高、隐私去除等,包括音频时长检核、视频格式转换、去除受损/低分辨率图像等通用预处理。
(1)文本文件:文本文件有效性检验(access)、去除同源重复文件(filecmp)、文本数据转txt、json(python-docx/chardet)、去除无意义字符/错误换行(replace)、冗余信息去除(MinHashLSH)、隐私敏感暴力信息去除等。
(2)图片源文件:图像受损判别(OpenCV)、去除低分辨率(Laplacian)、去除重复图像(相似性度量,内容级)、格式判别与转换jpg(OpenCV)、隐私信息检测(PaddleOCR)等。
(3)音频源文件:音频文件有效性检验(FFmpeg)、有效时长检核(VAD)、隐私敏感暴力信息去除、语音文件属性信息分表入库(PaddleSpeech/WeNet/FunASR)等。
(4)影像源文件:视频受损判别(OpenCV)、视频时长判别(OpenCV)、格式判别与转换mp4(OpenCV)等。
场景化预处理,由应用团队基于业务需求进行场景化预处理,包括:摘要信息生成、指令增强及标注提升、语音增强/人声分离、视频场景识别等场景预处理。举几个场景例子如:
(1)审讯笔录、公文摘要、客服大模型:指令集增强及标注提升(evol-instruct)、摘要信息生成(pdfplumber/docx/flask)、表格抽取与推理(langchain)、文本语法纠错(MacBERT-CSC)、问答对自动生成(提示词工程)等。
(2)客服大模型:语音转文本及标注提升(PaddleSpeech/WeNet/FunASR)、音频采用率转化(FIFO算法)、语音增强/去噪/人声分离(Sleeper)、音频格式转换(FFmpeg)等。
(3)应急大模型:视频场景识别(分类标注)、视频增强、目标检测与跟踪(图形标注)、图像文字识别txt等。
其中视频场景识别(分类标注)流程为:获取视频图像描述信息—》图像场景识别(调用通用大模型,进行票证、水印检测、美学等)--》判断是目标场景,则进行场景化数据分级分类—》形成数据资源及资产目录。
3.3数据蒸馏/合成
数据蒸馏是通过压缩大规模数据集中的关键信息,生成更小但具有代表性的数据集的技术。其目标是通过少量“高信息密度”的数据样本,使模型在训练时达到与使用完整数据集相近的性能。
根据不同的优化目标分类:性能匹配、参数匹配和分布匹配。基于大模型的蒸馏/合成内容包括:利用强大的通用LLMs蒸馏高质量数据;根据方法和数据模态,进一步细分为从种子合成、合成推理步骤、可控合成、从零合成和合成多模态数据等类别;自我指导(self-instruct)通过迭代过程生成新指令和相应的实例,以增强LLMs的指令遵循能力;可以用于模型自我改进;可以合成领域数据优化领域模型。
典型的应用场景例子如:
3.4数据标注
可借助工具平台进行数据标注,对图像、文本、语音、视频、大模型问答等多种数据类型的标注通过简单易用的可视化界面完成,辅以AI智能标注能力,使得标注更高效。例如构建如下的标注工具平台:
业界开源的一些工具如:Doccano、CVAT、LabelImg、LabelMe、VIA等。
3.5数据增强
数据增强对现有数据进行各种变换和处理来生成新的训练样本,从而增加数据集的多样性和数量,使模型在训练过程中能够见到更多种类、更多数量的数据,从而提升模型的泛化能力和鲁棒性。
例如:QA对/单问题—》问题扩增(深度:增加约束,增加推理步骤,增加描述复杂性等;广度:增加主题覆盖,增加描述多样性等;相似度:同义替换、语序调整、句型转换等)--》问题推理(基于推理大模型得到问题的推理过程和答案)--》CoT数据集(Chain-of-Thought,思维链)。
3.6数据质量评估
数据质量评估从准确性、完整性、重复性、数据格式等多维度进行,全面验证数据的适用性和可靠性,从而为模型训练提供坚实而可靠的基础保障。
按照数据处理流程,可分为基础数据质量评估、大模型应用数据质量评估。基础质量评估包含合规性、有效性、时效性、可溯源性等,对于大模型应用数据质量评估包括预训练质量评估、微调质量评估、行业质量评估。
简单小结一下数据集构建步骤的核心内容:
(1)从互联网等外部公开渠道及行业大模型用户内部渠道采集行业数据,包括非监督学习数据和监督学习数据。
ü非监督学习数据集,以文档、手册等内容为主,用于继续预训练,强化模型的专业知识背景;
ü有监督学习数据集,以专业问答对为主,用于微调,使模型能够更好地理解和适应行业场景。
(2)进行数据清洗、去重、审查等预处理工作,去除噪声和不一致性,保证数据的准确性、可靠性和多样性。
(3)组织行业专家进行数据标注,特别是CoT等专业属性强的数据,帮助模型更好地理解数据的含义和特征。
这里,数据集构建方面再做一下引申,我们企业要做好数据的开发与治理,构建数据管控体系。“立法、执法、生产“三位一体的数据管控体系,贯穿数据生产全过程,立法线明确数据生产管理要求,定职责、定标准、定要求;执法线明确考核管理执行体系,监督数据生产情况,三方协同互促,共同打造数据资源底座。生产线由业务系统收集数据表单、数据文本、图形图像、音频视频、操作日志等,多元数据统一入口进行数据汇聚,数据存算使得开发可控、质量可靠,数据开放实现全面融合、出口统一,开放到应用系统实现数据融合、数据分析、数据挖掘、数据洞察。
4、模型训练
【参与人员】:软件工程师、硬件工程师
【工具链】:模型训练工具、评测工具
【输出物】:行业/垂类模型底座。
提升模型专业能力和场景适应性,包括提升模型性能、促进算法优化、加速技术演进、提高任务适应性、增强用户体验、支持复杂任务。
4.1继续预训练
继续预训练是一种在现有预训练模型基础上,通过引入新的数据或者任务来进一步训练模型的方法,主要目的是在不从头开始训练模型的情况下,利用新数据或特定领域的数据增强模型的知识范围和相关能力。
需要进行继续预训练的情况包括:基础模型不包含我们需要的知识,语言不支持,知识过期需要更新。
4.2有监督微调(SFT微调)
监督微调(SFT)是指增强大模型对齐能力,利用高质量输入-输出对(问答对)训练模型,教会大模型如何遵循指令并生成所需的输出。微调工作是模型训练的重要环节,也是于业务实际需求贴合度很高的环节。微调训练可增强模型在某一能力上的表现,单可能导致其他额能力知识的改变或丢失。
需要进行指令微调的情况包括:缺乏该领域特定知识的理解和生成能力时,需要特定能力点(如领域意图分类)而单基础模型不具备时,输出格式、输出风格不符合要求。
下面介绍两种常见的微调方式。
名称 |
全参微调(Full Parameter Fine-Tuning) |
LoRA微调(Low-Rank Adaptation) |
定义 |
是大模型SFT监督微调(Supervised Fine-Tuning)一种,整个模型的所有权重都会被更新,以使得模型完全适应新的任务或特定领域数据集 |
是一种广受欢迎的PEFT方法,轻量级的微调方法,其核心思想是模型权重的更新可以用低秩矩阵来近似 |
适用 |
拥有大量与任务高度相关的高质量训练数据的情况,通过更新所有参数来最大程度地优化模型对新任务的理解和表现 |
|
优点 |
可以充分利用所有参数来优化模型在新任务上的表现;特别适合于模型需要较大改变才能适应新任务的情况 |
计算成本较低,存储空间需求较小,因为只更新一小部分参数且仅保存额外的低秩矩阵;有助于防止过拟合因为参数更新较少 |
缺点 |
计算成本高且存储空间需求较高,每个微调后模型的大小都与原始模型相同;容易导致过拟合,尤其是在目标数据集较小的情况下 |
无法完全利用多有参数的优势;在某些任务上,性能可能不如全参微调 |
除了这两种方法外,还有其他多种微调技术,如冻结层、适应性学习、多任务学习等。每种技术都有其独特的优缺点,实际应用中应根据任务特点和资源约束来决定采用哪种方法,此外还可以通过数据增强、知识蒸馏、提示学习等其他飞微调手段来提升模型表现。
4.3强化学习(CoT强化学习)
强化学习核心思想是让智能体(Agent)通过与环境(Environment)的交互学习最优策略(Policy)并采取行动(Action),以最大化长期累积奖励(Reward)。与监督学习(由明确标签)和无监督学习(无标签)不同,强化学习依赖试错机制和奖励信号,进行自我迭代和优化。
大模型背景下的强化学习如GPT-o1、R1在规则奖励模型(准确率、格式化)信号指导下,显著提升其数理逻辑等推理能力,未来围绕行业场景强化学习奖励模型是行业模型能力突破重点,如金融领域、网络领域等奖励模型。
4.4模型蒸馏
模型蒸馏的核心思想是将一个庞大、复杂单性能强大的模型(教师模型)的知识“迁移”和“蒸馏”给一个更小、更简单的模型(学生模型),使得学生模型能在保持接近教师模型性能的同时,显著降低模型大小和计算复杂度。
核心目标:(1)压缩模型,获得轻量级的模型,在资源受限的环境(如移动设备等)中部署;(2)迁移知识,将教师模型捕捉到输入输出之间复杂的、非显性的关系传递给学生模型;(3)提升学生模型性能,让学生模型学习到教师模型更强知识和泛化能力。
4.5训练效果评估
上面介绍的几种训练方式,做一个汇总分析。
方式 |
预训练 |
微调 |
强化学习 |
蒸馏 |
底座 |
V3的预训练支持,用户可使用V3为基座模型,结合行业企业大规模数据集,配比通过用防遗忘数据集,构建企业级L1底座模型 |
更换掉原来的模型底座,重新纳入行业场景化数据进行微调,获得具有领域知识的领域模型 |
行业数据做微调基础上,进一步参考GRPO的算法,训练除掌握行业知识和深度推理能力的RL模型,打造自己的行业R1 |
用R1生成数据蒸馏原行业模型,强化效参数模型的思维链能力和效果,同时结合垂域数据SFT,再嵌入应用 |
图示 |
||||
适用 |
互联网、模型厂商和行业头部客户 |
行业大/中型客户 |
行业头部客户 |
行业客户 |
基模 |
Deepseek V3 |
Deepseek V3 |
Deepseek R1 |
小参数模型 |
数据 |
TB级行业数据 |
GB级标注数据 |
百万级 |
混合数据(原始数据+生成数据) |
训练成本 |
极高 |
中 |
较高 |
低 |
目标 |
行业V3模型 |
行业V3模型 |
行业R1模型 |
R1-disitll行业模型 |
模型训练资源如何估算呢?实战建议先从验证性项目开始,使用少量算力进行LoRA微调。大模型在训练过程中,显存消耗主要由两个部分组成:Model States、Residuzal Memory Consumption,设模型参数量为φ,
训练总内存=模型内存(2φ)+梯度内存(2φ)+优化器内存(8φ)+权重副本(4φ)+激活内存(Xφ)
其中,激活内存占用大量显存。
如65B模型权重训练总内存最小为65GB*16=1TB,通常预估按照20倍1.3TB显存占用。
模型计算量方法如下所示:
计算Scaling law:C=6ND(前向计算2ND,后向计算4ND)
C:算力的大小(Tflops)
N:模型的parameters数量,也就是参数量,不算embedding
D:进入模型的训练Token数量
MFU(Model FLOPs Utilization):模型算力利用率,正常30%-40%,MOE会更低。
时间T训练数据量公式:D=C*MFU*T/6N(T表示时间,单位s)。
举个实例做说明:千卡A100集群,35B参数模型,MFU为35%,计算每天训练数据量。
说明:A100算力312 TFlops(10^12)
D= C*MFU*T/6N=1024*(312*10^12)*0.35*86400/(6*35*10^9)=46*10^9=46B tokens
为了完成更复杂的自然语言理解任务,通用大模型正向万亿级别飞跃,这需要更大规模的集群和更高性能的GPU,以提供更强的计算能力。比如:
模型 |
Bloom |
GPT-4(业界猜测) |
Llama3.1 |
参数量 |
176B |
1800B |
405B |
GPU卡类型 |
A100 |
A100 |
H100 |
GPU数量 |
384 |
25000 |
16000 |
Token数 |
3500亿 |
13万亿 |
15万亿 |
训练时间 |
3.5个月 |
90-100天 |
54天 |
通用大模型的参数量还在呈增长态势,受成本和国内芯片资源短缺等影响,考虑通过长距RDMA等新技术将一定范围内多方的小规模智算中心并联成虚拟的大型智算中心节点,实现区域内智算中心协同计算模式,以解决临时性的大规模算力需求。
分布式拉远训练是可行性原理是:大模型预训练的每一个阶段,所有GPU节点都是高度同步的,从模型训练角度来看,相对于同DC内集群,拉远集群区别在于某些节点之间的链路增加了静态时延,在负载均衡以及不丢包的前提下,长距链路时延增加的开销很小,所以不会对整体训练性能造成太大的影响。
评估需求通常包含以下要点:
(1)模型大小:参数量(7B/13B/70B……),模型越大,单次训练所需算力越多。
(2)数据规模:训练数据的Token数量,数据越多,训练轮次和总时间越长。
(3)训练方案:预训练>全参数微调>LoRA
(4)项目上线时间要求,决定了并行度和算力投入强度。
硬件选型:
(1)GPU是核心:目前主流是NVIDIA的A100/H100/A800/H800,华为910B等。
(2)显存大小:直接决定内阁跑多大的模型,能不能进行全参数微调。
(3)卡间互联:NVLink/NVSwitch对大规模分布式训练至关重要。
(4)CPU、内存、存储、网络:均需匹配GPU性能,避免瓶颈。
模型训练各阶段均有评估指标,评估符合要求才会形成行业/垂类模型底座。
训练步骤 |
评估指标 |
继续预训练 |
是否有并行分布式训练 |
指令微调 |
模型准确率、是都支持混合精度训练 |
强化学习 |
是否用到了GRPO技术 |
模型蒸馏 |
是否有模型蒸馏功能 |
模型效果评估 |
模型准确率、文本相似度指标等 |
5、推理优化
【参与人员】:软件工程师、硬件工程师
【工具链】:模型推理优化工具、评测工具
【输出物】:行业/垂类推理模型
推理优化能提高模型应用效能比,确保模型实用性。主要表现为:
(1)提升推理效率:一是快速响应,优化推理速度可以显著减少模型的响应时间,确保模型能够快速处理用户请求,提供实时反馈。这对于需要快速响应的应用场景(如自动驾驶、实时监控、智能客服等)尤为重要。二是资源利用,通过优化模型的资源消耗(如内存和计算资源),可以在有限的硬件资源上运行更复杂的模型,提高资源利用效果,降低运营成本。
(2)降低资源消耗:一是硬件成本,优化后的模型可以在更小的硬件资源上运行,减少对高性能GPU的依赖,从而降低硬件采购和维护成本。二是能源效率,优化模型的推理效率可以减少能耗,提高能源利用效率,符合绿色计算和可持续发展要求。
(3)提高模型性能:一是准确性和稳定性,通过优化模型的推理过程,可以减少推理过程中的误差和不确定性,提高模型的准确性和稳定性。二是适应性,优化后的模型能够更好地适应不同的输入数据和应用场景,提高模型的泛化能力。
模型的部署方式和位置会对模型优化技术的发展起着不同的作用:
部署位置 |
云(Cloud) |
边(Edge) |
端(Terminal) |
角色 |
模型训练、复杂推理、海量数据处理、大规模服务 |
中间节点(如工厂的边缘服务器、区域数据中心),进行部分数据预处理、实时性要求较高的推理、数据聚合 |
终端设备(如摄像头、传感器、巡检机器人、个人设备),进行轻量级模型推理,即时响应 |
优势 |
算力强大且弹性,存储容量大,易于集中管理和更新模型 |
降低云端负载,减少网络延迟,提升响应速度,一定程度数据本地化 |
极低延迟,离线可用,数据隐私性好(数据不出设备) |
挑战 |
网络延迟,数据隐私和安全(部分数据不上云),带宽成本 |
算力相对受限,部署和管理复杂度增加 |
算力、内存、功耗及其有限,智能运行小型或高度优化的模型 |
三者在如下方面进行协同:
(1)模型分发与适配:云端训练大模型,通过知识蒸馏、量化、剪枝等手段得到适合边、端的轻量化的模型并部署。
(2)任务协同处理:端侧初步感知和简单判断,异常或复杂情况上传边缘处理;边缘进行更复杂分析和决策,关键数据和结果汇总到云端;云端进行全局分析、模型迭代优化,并将更新后的模型或策略下发。
(3)数据协同:端侧原始数据在本地或边缘初步处理和筛选,减少上传到云端的数据量,保护隐私。
大模型推理优化的核心思想是解决推理卡显存受限、计算受限、吞吐受限带来的问题。主要分为如下几种分类:
一级分类 |
二级分类 |
三级分类 |
大模型推理优化 |
数据级优化 |
输入压缩 |
输出组织 | ||
模型级优化 |
架构设计 |
|
模型压缩 | ||
系统级优化 |
推理引擎 |
|
服务系统 |
推理优化的核心原理是让模型跑得更快(编译优化、硬件加速),让模型更小(压缩),让资源利用更高效(批处理、调度)。主要技术包括:
(1)专项技术优化(精细):KV Cache(Transaction)、FlashAttention、PageAttention以及其他模型结构优化,适用于特定模型结构等。
(2)批处理(增效):静态批处理、动态批处理、智能调度,适用高并发、高吞吐场景。
(3)专项技术优化(精细):ONNX、TensorRT、TVM、OpenVINO等,适用于特定硬件加速、校验性能。
(4)模型压缩(瘦身):量化Quantization、剪枝Pruning、知识蒸馏Knowledge Distillation,适用高并发、高吞吐场景。
5.1模型轻量化
训练后量化(Post-Training Quantization, PTQ)是指在一个已经训练完成的浮点(FP32)模型上,不经过任何重新训练,直接通过一系列计算和统计手段,将其权重和激活值转换为低精度(如INT8)表示的过程。它的核心思想是:通过分析预训练模型权重的分布,以及用少量数据观察激活值的分布,来确定最佳的量化参数(主要是缩放因子Scale和零点Zero Point),从而最小化量化带来的误差。可以把它想象成给一件已经做好的衣服(训练好的模型)修改尺寸(量化),而不是在裁布时就按新尺寸来做(QAT)。
量化训练(Quantization-Aware Training, QAT)是指在模型训练的前向传播过程中,模拟量化操作(将浮点数权重和激活值转换为低精度整数),而在反向传播时,仍然使用浮点数权重进行更新的一种方法。其核心思想是:让模型在训练阶段就“感知”到量化会带来的误差,并通过训练来自适应地调整权重,以弥补这种误差,从而在最终真正低精度部署时,精度损失降到最低。可以把它想象成一场“带障训练”:运动员(模型)在训练时就绑着沙袋(模拟量化),等到真正比赛(部署推理)时,卸下沙袋会表现得更出色。
两者可以用如下图示来表示:
5.2推理加速
大模型推理优化方法众多,大部分技术也已经被各种框架集成,优化的重点在于业务应用与硬件资源亲和优化,选择适当的优化方法提供高质量的推理服务。
|
vllm |
tensorrt-llm |
sglang |
PageAttention |
支持 |
支持 |
支持 |
Kv-cache |
支持 |
支持 |
支持 |
算子融合 |
支持 |
支持 |
支持 |
连续批推理 |
Continuous batching |
In-Flight batching |
Continuous batching |
FlashAttention |
支持 |
支持 |
支持 |
投机采样 |
支持 |
支持 |
支持 |
多并行 |
支持 |
支持 |
支持 |
量化 |
GPTQ,AWQ,INT4,INT8,FP8,gguf等多种 |
GPTQ,AWQ,INT4,INT8,FP8等 |
GPTQ,AWQ,INT4,INT8,FP8等 |
Chunked Prefill |
支持 |
支持 |
支持 |
DeepSeek |
支持完善 |
支持完善 |
支持完善 |
github star |
48.1k |
10.6k |
14.6k |
(1)优化方法上对比:上表可以看出,各个框架均集成了主要优化方法,包括kv-cache、连续批处理、量化、投机采样、chunked Prefill等。
(2)推理性能上对比:各个框架都经过业内大量验证与优化,推理性能差距比较小。
(3)框架选择建议:vllm使用用户最多,更新频率快,上手容易,社区反馈积极,在功能完善程度和稳定性上都具有一定优势。
5.3推理效果评估
推理优化根据推理算力规模、成本等情况并结合用户并发数等因素,降低推理资源消耗、提升模型推理速度。模型轻量化主要包括在满足应用精度的前提下,通过剪枝、量化等技术减小模型规模;推理加速框架通过优化模型推理的软硬件环境(例如模型解析与转换、内存与计算调度)提升效率。及时对优化后的推理结果进行测评,确保其推理精度,如果不满足业务需求,则要进行重新优化。
6、应用开发
【参与人员】:软件工程师
【工具链】:AI应用开发交付工具
【输出物】:应用插件和服务
开发与行业大模型配套的插件和服务,扩展模型应用范围、能力及深度。
6.1提示词设计与优化
提示词工程(Prompt Engineering)是一种无需修改大模型参数即可拓展其能力的技术。它通过特定任务的指令或上下文提示,激活相关知识,实现模型与下游任务的无缝集成。
(1)明确任务指令:提示词通过清晰描述任务类型(如问答、翻译、文本生成)和具体要求(如格式、主题),帮助AI理解用户意图。
(2)优化交互效率:精准设计的提示词可减少模型反复理解需求的时间,尤其在实时场景(如客服机器人)中可快速获取目标信息。
(3)增强任务灵活性:通过调整提示词内容(如角色设定、约束条件),同一模型可适应多样化需求。
(4)减少模型误差:通过提示词提供上下文和示例,降低模型生成无关内容的概率。
提示词引导模型生成符合预期的输出,例如:你是【角色】——请你为【对象/任务】——创作一段【内容类型】——要求包含【要点/限制】——用【风格】的语气表达——输出格式为【结构要求】。
提示词核心要素包括:
(1)角色设定:你是专业的、经验丰富的、擅长……的;明确身份,让AI基于特定角色的专业视角来思考和回答。
(2)学习示例:输入XXX、输出XXX;示例驱动,让AI能更准确地理解所需的格式和深度。
(3)思维链:第一步……第二步……;一步一步思考,逻辑推理,获得更可靠的结果,同时看到逻辑推理过程。
分享一下OpenAI的提示词实践指南:
最佳实践 |
技巧 |
撰写清晰指令 |
查询中包含详细信息 让模型扮演一个角色 利用分隔符清晰区分输入的不同部分 明确说明完成任务所需的每个步骤 提供示例 明确输出长度要求 |
提供参考文本 |
使用参考文本构建答案 指导模型用引用的文本回答问题 |
将复杂任务分解成更简单的子任务 |
利用意图分类确定与用户查询最相关的指令 针对长时间对话应用程序,应概括或过滤之前的对话内容 分段汇总长文档并递归构造完整汇总 |
给模型更多实践思考 |
在模型急于得出结论之前,指导模型自己寻找解决方案 运用内心独白或连续提问来隐藏模型的推理过程 询问模型是否有遗漏 |
使用外部工具 |
使用基于嵌入的搜索实现高效知识检索 利用代码执行进行精确计算或调用外部API |
系统地对变更测试 |
以标准答案为基准评估模型输出 |
6.2知识检索增强(RAG)
传统大语言模型(LLM)受困于固化知识库与黑箱生成逻辑,企业级应用面临三重挑战:
(1)知识时效性危机:无法响应实时数据
(2)幻觉失控风险:预训练数据缺陷导致“创造性错误”
(3)场景适应高成本:每遇新需求需漫长微调周期
两者对比如下:
维度 |
传统LLM |
RAG架构 |
知识更新 |
批量离线训练 |
实时增量更新 |
数据源 |
单一语料库 |
多模态异构数据融合 |
可解释性 |
黑箱模型 |
可追溯的知识来源 |
领域适应 |
重新微调耗时 |
快速切换知识库 |
RAG为大模型装上动态知识外挂:分钟级更新保鲜、零训练成本调用、精准狙击幻觉,让大模型秒变领域专家。
LangChain、RAGFlow等主流开源RAG框架一般通过“数据采集-知识解析-知识嵌入-索引构建”四步构建高质量RAG知识库,并结合高性能大模型底座,实现面向专业性高的行业场景大模型应用的快速构建,推动大模型赋能一线场景业务。
(1)数据采集:从网上公开来源采集的数据,若是企业原始数据需进行通用数据处理提升数据质量。
(2)知识解析:将对原始数据进行解析,将其中的结构化及非结构化数据包含的文本、表格、图像等内容进行分解。
(3)知识嵌入:将解析的数据进行关联分析后,切分为相对独立包含意义的文本块,并进行向量化。
(4)索引构建:针对向量化文本块进行索引目录构建,用于内容查询。
RAG工作原理:针对大模型专业信息不足的情况,挂载外置的RAG知识库,用户提问时将问题匹配到具体的知识库中,从知识库中检索出Top N知识,大模型依据检索出的相关知识对用户的查询进行回答。
核心技术包括文本分块技术、索引构建技术、查询转换+查询路由技术、多渠道混合检索+重排过滤技术、响应合成技术。
(1)文本分块
分块将初始文档分割成一定大小的块,在保证语义信息的前提下,将文本分割成句子或段落。找到语料库中文档的最佳块大小对于确保搜索结果的准确性和相关性至关重要。分块的方法有多种,包括固定大小分块、层次结构分块等。
(2)索引构建
为了能够高效检索出相关文档或知识片段,需要将分块后的文本内容转换为可以搜索的结构化形式,叫索引构造。索引构造方法有矢量化存储索引、层次索引、假设问题。
(3)查询转换+查询路由
查询转换是一系列使用LLM作为推理引擎来修改用户输入以提高检索质量的技术。举例:“LangChain或LlamaIndex哪个框架在Github上拥有更多星星?”
可以将其分解为多个子查询:
“LangChain在Github上有多少颗星?”
“LlamaIndex在Github上有多少颗星?”
它们将并行执行,然后将检索到的上下文合并到一个提示中,供LLM合成初始查询的最终答案。
查询路由是LLM支持的决策步骤,根据用户输入的语义内容,精确识别用户意图,从多个选项中选择最合适的处理方式。
(4)多渠道混合检索+重排过滤
混合检索结合语义搜索和关键词搜索的优势,提升检索准确性。
重排过滤通过重新排序、过滤等来优化检索结果。
(5)响应合成
响应合成器根据检索的所有上下文和初始用户查询生成答案,合成方法包括逐块迭代细化、上下文总结与适配、多答案生成与融合。
方法 |
逐块迭代细化 |
上下文总结与适配 |
多答案生成与融合 |
应用场景 |
长文档、多文档问答,需逐步整合不同部分的检索结果 |
粗粒度问答,资源受限场景(需快速响应) |
复杂问题,需要多来源支持的场景(如学术研究、投资分析) |
流程 |
分块处理:将检索到的长上下文拆分为多个逻辑块(如按段落、主题或固定长度),依次输入LLM,避免一次性输入过长导致的注意力分散或信息丢失。 迭代生成:对每个块生成初步答案,后续块用于修正或补充前序答案(如修正事实错误、补充细节)。 |
动态摘要:对检索到的上下文生成简洁摘要,保留核心信息,减少冗余。 提示工程:将原始问题与摘要结合,生成适配的提示模板送入大模型,直接生成答案。 |
并行生成:对不同上下文块生成多个候选答案。 答案融合:基于拼接法、投票法、排序法等对答案进行融合。 |
RAG解决了大模型检索盲区(不会查)和事实性幻觉(容易瞎编)问题,但仍然存在两大挑战:资料结构混乱(切不准)和理解能力不足(喂得不当)。通过知识结构化—》检索精准化—》生成可控化的技术闭环,实现RAG相关应用“切得对、排得准、喂得巧”。
资料结构混乱解决途径:(1)知识图谱:通过实体关系关联与跨模态对齐,消除多义性歧义。(2)多轮理解:追踪对话历史与意图演变,突破单轮交互的上下文局限。
理解能力不足解决途径:(1)结构生成:构建逻辑化信息框架,解决上下文缺失导致的碎片化响应问题。(2)动态解析用户目标层级,修正表层查询与深层需求的错位偏差。
RAG目前正面临复杂场景适用性不足和系统复杂度高,无法智能决策的问题,通过多模态RAG的跨模态对齐以及Agentic RAG的动态智能决策,进一步推动AI从单一任务执行向复杂场景泛化演进。
|
多模态RAG |
Agentic RAG |
描述 |
跨模态对齐技术融合文本、图像、视频等多元数据,构建统一语义空间,实现跨模态信息的联合检索与生成 |
集成自主决策与工具调用能力,通过动态规划检索路径、协调多模态数据源及外部API,实现复杂任务的端到端解决 |
核心技术 |
跨模态对齐、生成式增强 |
自主决策代理、工具调用、工作流编排 |
应用场景 |
跨模态搜索、教育辅助、智能安防等 |
企业知识中枢、设备智能维护、金融分析等 |
6.3智能体(Agent)
智能体(Agent)是指一个具有感知、理解、决策和行动能力的自主系统,它能够在特定环境中持续运行,通过感知外部世界、处理信息、作出判断,并采取行动,从而实现对环境的适应与反馈。随着大模型技术的持续发展,智能体的能力边界被显著拓展,能在复杂环境中以“类人方式”持续学习、理解上下文并主动协同。群体智能驱动未来智能演化,智能体之间的协同将成为AI系统发展的关键范式。
智能体关键能力:
(1)感知:需要有能力感知其周围环境,例如通过摄像头和传感器收集图像、声音、触觉等多模态数据。
(2)表征:需要能够从其感知到的数据中提取并表示信息,以便更好的理解和解释环境。
(3)决策:基于收集到的信息、需要能够做出恰当的决策,例如在导航任务中规划最优路径。
(4)行动:需要能够执行其决策,例如通过控制电机或其他执行器移动或操作物体。
(5)学习:需要从与环境互动中学习,以提高其决策和行动正确性。
Agent工作原理:
(1)规划决策模块:规划模块是Agent的策略制定者,大模型决策中枢依据用户输入,分析问题、规划步骤、分解任务等,决定是调用工具搜索、计算还是直接回答。例如在旅行规划场景中,它会规划先获取景点信息,再筛选美食等任务顺序。
(2)记忆模块:分为短期和长期记忆。短期记忆是prompt+上下文对话,支持多轮对话;长期记忆是基于知识库/向量库存储和快速检索。
(3)工具调用模块:工具模块为Agent提供完成任务的手段,大模型决策中枢根据规划调用相应工具。像在旅行规划中,会调用地图规划工具规划线路、数学计算工具进行预算分配。
(4)智能执行模块:行动模块是任务的执行者,依据大模型决策中枢的指令,利用工具模块的工具执行具体任务。如在获取到景点信息和预算分配后,为用户生成详细的旅行计划。
Agent核心技术,主要给大家分享8种。
(1)规划决策:
可将复杂任务进行目标分解,智能体将大型任务分解为更小、更易于处理的子目标,从而实现对复杂任务的高效处理,并结合历史信息进行反思与完善,改进后续规划,提高最终规划结果的质量。
(2)感知洞察:
感知为智能体提供了可观察环境的当前状态的信息,Agent能感知学习到在模型内部知识不够时去调用外部API。比如获取实时的信息、执行代码能力、访问私域知识库等。
(3)长短期记忆:
短期记忆存储着人设、指令以及执行复杂认知任务所需要的信息;一般来说,短期记忆即prompt的上下文记忆,合理的短期记忆能够使得模型在较高信息密度下做出快速正确的决策。长时记忆可以将信息存储很长时间,其存储容量基本上时无限的,平台以向量数据库进行存储,可以使用向量进行相关内容的快速召回。可以用下图示意:
(4)知识学习
(5)Function Calling:
Function Calling(函数调用)是Open AI在2023年退出的非常重要的概念,以前的AI大模型只能依靠自己已有的知识回答问题,无法直接获取实时数据或与外部系统交互,比如不能直接访问数据库里的最新信息,也不能使用一些外部工具来完成特定任务。
Function Calling本质上就是提供了大模型与外部系统交互的能力,类似于给大模型安装一个“外挂工具箱”。当大模型遇到自己无法直接回答的问题时,它会主动调用预设的函数(如查询天气、计算数据、访问数据库等),获取实时或精准信息后再生成回答。
Function Calling需要大模型本身进行专门的Function Call调用微调才能稳定支持,Function Calling工具的研发需要适配不同的大模型(例如参数格式、触发逻辑、返回结构等)。
(6)MCP:
Model Context Protocol(模型上下文协议)是一种由Anthropic公司(开发Claude模型的公司)推出的一个开放标准协议,目的就是为了解决AI模型与外部数据源、工具交互的难题。
通过Function Call,每次要让模型连接新的数据源或使用新工具,开发者都得专门编写大量代码来进行对接,既麻烦又容易出错。MCP的出现就是为了解决这些问题,类似“通用插头”或“USB接口”,制定了统一的规范,不管是连接数据库、第三方API还是本地文件等各种外部资源,都可以通过这个通用接口来完成,让AI模型与外部工具或数据源之间的交互更加标准化、可复用。
最开始推出的时候,只有Claude客户端支持,后续由于Cursor的支持,各种插件和工具也开始陆续提供支持。
(7)A2A
Agent2Agent是谷歌提出的一种开放协议,旨在实现不同Agent之间(也可以是其他应用与Agent之间)的通信和相互操作,为不同的Agent提供一种共同的语言标准。A2A是对MCP的补充。
(8)智能执行
主要有四步骤:
1任务规划 |
2技能选择 |
3任务执行 |
4结果返回 |
LLM充当大脑,将用户请求解析为多个任务,每个任务都有“任务意图、技能选择、关键词槽” |
将任务意图及技能提供给LLM,要求从技能库中选择合适的技能,并判断是否缺槽,若缺则进行信息追问 |
信息获取完整后,智能体会执行技能调用,并记录结果 |
LLM接收执行结果,汇总后反馈给用户 |
Agent也面临着一些挑战,表现为:
(1)自主性和决策能力:复杂环境种的自主决策能力较弱,难以应对突发情况,难于处理多任务的协同调度。
(2)可解释性:决策过程缺乏可解释性,难以向用户解释行为逻辑,难以向用户展示决策依据。
(3)长期规划能力:缺乏有效长期规划机制,难以实现长周期资源调度,难以跨时间维度任务拆解。
当然,AI Agent正引发生产力范式的双重革命:
在能力维度,通过记忆感知(L4)和数据人格(L5)实现人类意图的深度理解。
自动化程度 |
关键特征 |
代表用例 |
L1:简单步骤跟随 |
Agent通过遵循用户或开发者预先定义的确切步骤来完成任务 |
“打开邮箱中第一封邮件并读取内容”“给XXX打电话” |
L2:确定性任务自动化 |
基于用户对确定性任务的描述,Agent在预定义的动作空间中自动完成步骤 |
“查询广州今天的天气” |
L3:战略任务自动化 |
基于用户指定的任务,Agent自主使用各种资源和工具规划执行步骤,并根据钟建反馈迭代计划直至完成 |
“我要找XXX视频通话” |
L4:记忆和上下文感知 |
Agent感知用户上下文,理解用户记忆,并有时主动提供个性化服务 |
“告诉扫地机器人,今晚打扫房间” |
L5:数字人格 |
Agent代表用户完成事务,代表用户与他人交互,确保安全和可靠性 |
“找出最近适合旅游的城市” |
在产业维度,推动工作流从“操作说明书式”过程执行转向“结果导向”的智能编排。
面向过程的传统模式 |
面向目标的Agent模式 |
人工操作流程固化 |
动态目标拆解 |
固定菜单/按钮 标准化批量处理 历史数据统计分析 |
自然语言+多模态交互 个性化按需生成 实时反馈驱动模型进化 |
6.4应用测试与发布
最后进行各个工具模块的集成测试和发布。
三、应用落地阶段
7、业务平台嵌入
【参与人员】:软件工程师
【工具链】:AI应用开发交付工具
【输出物】:行业/垂类场景应用服务。
业务平台嵌入AI能力常见的问题:
(1)业务驱动与技术创新脱节:AI项目在规划阶段容易过度关注技术问题,而缺乏业务场景的实际需求,需对核心业务目标有深度理解,否则可能导致团队陷入技术至上的误区,无法对企业产生足够的有效价值。
(2)跨部门协同与推进障碍:项目所需数据,通过跨多个职能部门,存在数据部门墙;组织层级目标不一致、考核不一致,如何才能让每个部门在项目中均受益AI。
(3)泛化性与专业性难于平衡:在兼顾多场景的泛化需求与特定领域的专业化需求时,容易出现设计规划时功能“面面俱到“但能力难以深耕的局面。到模型训推阶段记忆应用落地阶段时,工程复杂度与建设成本有随之上升或造成项目不可控。
(4)数据基础与技术能力不足:对数据质量、多样性和治理能力评估规划不足,影响后续模型训练效果和应用性能。在规划AI落地阶段能力欠缺(如模型训练、部署、优化等),导致技术选型问题,影响项目进度或难以应对复杂的技术问题。
所以,应用落地效果要与业务流程无缝对接,提升业务效率和用户体验。
7.1AI应用嵌入业务流程
根据业务场景需求,加载大模型及配套小模型、知识库、数据库等,并配置相关参数供业务平台调用。根据业务目标,完善用户意图识别、提示词工程等能力,提升大模型应用的准确度和便捷性。
7.2AI工具嵌入业务流程
行业大模型应用的二次开发及优化,利用相关工具对应用进行流水线构建,通过页面操作及标准化模板,实现应用的组装式开发,并打造统一的对外开放标准,实现快速交付。
7.3安全与权限管控
开展安全评估,确保数据传输和处理过程中的安全性和隐私保护。
7.4数据回流
将模型输出结果和用户反馈数据重新输入到模型训练过程中,以优化和改进模型性能。
8、应用效果评估
【参与人员】:测试工程师、业务专家
【工具链】:评测工具
【输出物】:应用效果评估报告
评估应用实际效果,为持续优化提供依据,测评工作覆盖AI应用研发全流程。
研发流程 |
基模选型 |
模型训练 |
模型推理优化 |
智能体开发 |
模型/智能体发布 |
|
基模初选 |
基模选定 |
模型优化 |
模型深度优化 |
智能体优化 |
模型PK |
|
评估内容 |
解决方案设计与评估 |
部署方案设计与评估 |
应用成效评估与优化 |
|||
评测举例 |
通用大模型榜单,对比国内外开源/闭源模型 |
模型对比,模型验证 |
行业大模型评测:办公、网络、工业、农业等 |
复杂推理:数学-自然科学-抽象推理-逻辑推理-代码能力 |
智能体评测:任务规划-工具调用-长期记忆-代码-多模态理解-环境理解-安全 |
模型对战、真人盲评 |
安全评测 | ||||||
性能评测:大模型/智能体性能评测、低资源推理评测、一体机模型适配评测 DeepSeek基模替换评估、DeepSeek蒸馏版选型评估、DeepSeek国产化迁移性能评估 |
8.1技术能力评估
首先给大家介绍什么是“认知科学”,它是研究心智和智能的科学,包括从感觉的输入到复杂问题求解,从人类个体到人类社会的智能活动,以及人类智能和机器智能的性质。它是现代心理学、人工智能、神经科学、语言学、人类学乃至自然哲学等学科交叉发展的结果。认知科学研究的目的就是要说明和解释人在完成认知活动时是如何进行信息加工的。
从“认知”角度入手,重构大模型评测范式——认知科学驱动的大模型评测,包含体系化能力评估、复杂推理能力评估、质量与安全评估。
(1)体系化能力评估聚焦于大模型知识体系构建水平,从知识储备与基础表征双维度,考察模型在多维度知识整合中对复杂信息的精准捕捉与输出能力,作为大模型构建知识网络,实现复杂信息处理的核心基础。通常有如下几类:
知识百科 |
语言理解 |
常识推理 |
长文本 |
通过多领域知识图谱覆盖度测试,评估大模型对常识概念、专业术语、历史事件等基础信息的准确性与完整性,重点考察实体关联推理及跨领域知识衔接能力。 |
基于语法复杂度分析、语义歧义消解、多语言对齐等任务,验证模型对自然语言的深层语义解析能力,涵盖长难句理解、情感倾向判断及上下文指代推理等核心能力。 |
通过逻辑类比,因果关系分析,反事实推理等场景,测试模型对人类认知规律的模拟程度,具体包括隐含前提识别、间接结论推导等关键能力。 |
以多篇章整合能力、上下文依赖建模精度、长序列逻辑连贯性为核心指标,评估大模型在处理万级以上token时的信息记忆能力、结构组织能力及主题一致性保持能力。 |
(2)复杂推理能力是指大模型在处理高难度复杂任务时,通过逻辑思维、知识储备与推理策略输出准确合理答案的核心能力。复杂推理能力评估包括:
智能体 |
逻辑推理 |
抽象推理 |
数学 |
自然科学 |
代码 |
聚焦大模型的工具协同与任务处理能力,涵盖工具调用能力、任务规划能力、记忆处理等能力 |
涵盖多类型逻辑推理模式,如命题逻辑、非单调逻辑:处理默认假设、未知条件推理及优先级冲突,支持动态情境下的合理推断 |
衡量大模型从复杂信息或具体案例中提取本质特征、规律及模式,并将其迁移应用于新问题解决的能力 |
评估大模型在数学任务中的核心能力,包括数值计算、代数运算、几何推理等基础与进阶能力 |
考察大模型解决物理、生物、化学学科问题的能力,要求其能理解专业概念并推导科学结论 |
评估大模型根据自然语言需求生成可运行代码的能力,包括算法实现、功能模块开发及代码框架构建 |
(3)输出信息质量与安全是大模型与用户交互的核心载体,直接决定其在实际场景中的可用性、可信度与合规性。该能力聚焦内容真实性、安全性及任务契合度,系统评估模型生成内容时避免虚构事实、遵守伦理规范及精准响应需求的能力。包含以下几方面:
事实性非幻觉率 |
忠实性非幻觉率 |
安全问答 |
指令遵循 |
衡量模型生成内容与客观世界事实的契合程度,主要关注两类典型错误:实体关系错误,如混淆主题与属性关联;属性值错误,如关键数据或概念偏差。该指标通过对比生成内容与权威知识库一致性进行量化评估。 |
考察模型在给定限定前提(如RAG检索文本、业务输入数据)下的推理约束能力,要求严格基于输入信息生成内容,而非依赖预训练知识库。该能力确保模型在企业数据分析、法律案例模拟等场景中,以输入数据为推理基准,避免先验知识干扰。 |
通过多维度任务评估模型内容合规性:恶意使用(用户或外部主动滥用,主观意图不良);模型不对齐(模型输出与预期目标、价值观或安全规范不一致);无意中造成伤害(非主观恶意,但客观上导致不良后果);智能体安全(涉及模型作为智能体的自身安全或执行安全) |
评估模型对用户指令的理解与执行效能,涵盖三大核心维度:任务解析能力,多步任务拆解、目标优先级判断;格式响应能力,按要求生成表格、代码块、结构化文本等特定输出形式;结果规范性,通过任务完成准确率、步骤完整性、格式合规性进行综合评分。 |
输出信息质量与安全评估中,尤其重视大模型安全能力的评估,通过分析大模型安全问题核心特征与风险驱动因素,形成四类风险13种安全场景:
1)恶心使用(misuse):不安全询问、攻击性言论、政治敏感、违法犯罪、道德伦理
2)模型不对齐(misalignment):偏见歧视、反面诱导、目标劫持
3)无意中造成伤害(mistakes):提示泄漏、礼貌文明、身心健康、隐私财产
4)智能体安全(structural risks):角色指令
在实操中,评测体系形成“能力筑基-》技术驱动-》场景验证”的闭环,各维度细分指标均与技术图谱能力提升点进行映射。基础能力维度为固定测试项,三类技术路线维度与业务场景维度需由各应用选择其对应类型后确定对应的评测方案。通过评测形成问诊手册,实现以评测促科研、保安全、促高质量发展目标。
(1)基础能力维度,评估是否“能用”-管控决策视角
可靠性 |
指令遵循 |
衡量模型准确理解并按照给定指令执行任务、输出符合要求内容的能力,确保模型行为与用户预期一致,是模型可用性的基础。 技术提升点:定向技能优化、上下文理解增强。 |
鲁棒性 |
评估模型在面对异常输入(如错误数据、模糊信息、噪声等)干扰因素时,维持正常运行、稳定输出有效结果的能力,体现模型的可靠性和适应性。 技术提升点:训练数据、定向技能优化、多模态支持。 |
|
非幻觉率 |
反映模型输出内容基于真实知识和事实,避免产生虚构、错误或无根据信息的程度,保证模型输出的可信度和准确性,提升用户对模型的信任。 技术提升点:定向技能优化、外部知识扩充、应用场景优化。 |
|
性能 |
首token时延 |
体现模型从接受任务指令(如用户提问、生成任务要求等)到开始返回首个token的时间间隔,反映模型即时响应速度,直接影响用户交互体验和使用效率。 技术提升点:智算效率提高、定向技能优化、协同优化等。 |
TPS(每秒处理token数) |
衡量模型在单位时间(每秒)内处理token的数量,代表模型处理文本数据和生成内容的效率,体现模型的计算处理能力,对于大模型数据处理和高并发场景至关重要。 技术提升点:智算效率提高、定向技能优化、协同优化等。 |
|
安全 |
13种安全场景 |
全面检验模型在面对各类安全风险场景时的应对能力,确保模型输出内容严格符合法律法规、道德伦理规范,保护用户权益,防范潜在风险,维护社会公共利益和良好秩序。 技术提升点:安全可信保障。 |
(2)技术路线维度,评估是否“会用”-研发侧视角
模型优化 |
上下文理解 |
检验模型对多轮对话、复杂语境中信息关联和长期依赖关系的处理能力。 技术提升点:上下文理解增强,定向技能优化。 评测数据要求:提供该场景涉及长文本、多轮对话、指代消解(包含代词他/她/它,省略句,隐含逻辑关系的文本)的问答对。 |
知识覆盖度 |
衡量模型对领域知识、常识、开放域信息掌握程度。 技术提升点:训练数据构建、基础知识补充。 评测数据要求:提供该场景包含专业知识、常识、新兴事件、跨领域知识的问答对。 |
|
推理能力 |
评估模型理解复杂问题、应用逻辑推理以及根据提供的信息生成准确、符合上下文的响应能力。 技术提升点:训练数据构建、定向技能优化、上下文理解增强。 评测数据要求:提供该场景涉及逻辑推理、数学计算、因果分析、策略规划的问答对。 |
|
RAG |
检索准确性 |
评估应用的检索模块能否从知识库中精准定位与问题匹配的信息。 技术提升点:外部知识扩充、共性工具、私有API。 评测数据要求:提供该场景涉及多场景覆盖实体查询、多文档依赖、概念解释、模糊与口语词、加入否定词(不、非)或限定词(如时间、地点)的问答对;提供检索的内外部原始数据以供裁判。 |
检索相关性 |
检验检索结果与问题的语义关联度,避免无关文档干扰回答质量。 技术提升点:上下文理解增强、定向技能优化、人工流程编排。 评测数据要求:提供该场景包含隐含语义或复杂意图、多因素关联或结合多轮对话或上下文依赖产生双重查询条件的问答对;提供检索的内外部原始数据以供裁判。 |
|
时效性 |
验证模型能否检索最新数据,避免输出过时或失效内容。 技术提升点:业务嵌入与自优化、共性工具、私有API。 评测数据要求:提供该场景涉及时间敏感信息的问答对,如最新政策、最新文件要求、动态实时数据、版本更新等;提供检索的内外部原始数据以供裁判。 |
|
智能体 |
角色认知 |
意图识别,评测数据要求:根据业务场景问题判断问题的真实意图,答案为真实意图。 指令遵循,上下文理解增强;评测数据要求:问题需包含业务场景相关指令,约定输出格式等规则,答案与输出规则对应。 |
记忆 |
多轮对话,业务嵌入与自优化;评测数据要求:每道题包含业务场景多轮对话,上、下轮之间具有相关性。 长期记忆,定向技能优化;评测数据要求:每道题只包含一个业务场景问题和多个碎片化信息,答案需从多信息中汇总。 |
|
任务规划 |
定向技能优化、复杂任务支持,评测数据要求:单一题目需多工具协作调用,答案需给出工具调用顺序。 |
|
任务执行 |
工具检索,外部工具调用;评测数据要求:给出工具列表,根据题目筛选当前业务场景需要使用的工具。 工具调用,定向技能优化工具调用、外部工具调用;评测数据要求:在题目推理过程中能够实际调用工具并拿到实际结果(api、文档处理、网页浏览等工具)。 |
(3)业务场景维度,评估是否“好用”-用户侧视角
问题咨询类 |
回答准确性 |
评估模型回答问题的准确程度,体现知识检索、理解及生成等技术的协同能力。 技术提升点:基础知识补充、外部知识扩充、上下文理解、私有API。 评测数据要求:提供该场景包含明确标准答案的问答对,涵盖不同难度和类型的咨询问题,尽量覆盖常见和边缘案例。 |
回答完整性 |
评估模型回答全面回应问题的程度,反映问题理解和知识整合等技术能力。 技术提升点:定向技能优化、上下文理解。 评测数据要求:提供该场景包含需要详细解释和多方面考虑的问答对,例如涉及多个步骤或因素的问题。 |
|
知识更新及时性 |
验证模型能否基于最新数据进行应答,避免输出过时或失效内容;对于采用RAG技术路线的问答咨询场景应用,该指标与技术路线时效性指标共用一套题与得分。 技术提升点:业务嵌入与自优化、共性工具、私有API。 评测数据要求:提供该场景涉及时间敏感信息的问答对,如最新政策、最新文件要求、动态实时数据、版本更新等相关的问答对。 |
|
内容生成类 |
内容准确性 |
评估模型生成内容是否准确无误,符合事实或背景设定 技术提升点:基础知识补充、定向技能优化、外部知识扩充 评测数据要求:提供该场景包含明确事实信息的问答对,如生成的内容中需有特定内容、行文规范、步骤等,涵盖不同难度和输出长度的问题。 |
内容相关性 |
评估模型生成内容与用户需求的契合度。 技术提升点:外部知识扩充、上下文理解。 评测数据要求:提供该场景具有特定主题或背景的问答对。 |
|
内容多样性 |
评估模型生成内容内部逻辑结构合理度、逻辑流畅度 技术提升点:训练数据、定向技能优化 评测数据要求:提供该场景需要逻辑推理或步骤描述的任务,如生成工单、生成方案等 |
|
逻辑连贯性 |
评估模型能否从多个角度或以不同的风格生成多样化的内容。 技术提升点:基础知识补充、定向技能优化 评测数据要求:提供该场景多样化的生成任务的问答对,比如不同风格、不同版本的内容创作(正式、通俗等) |
8.2应用成效评估
结合端到端的业务场景评估行业大模型运行的性能、业务影响、用户体验和成本效益,核心内容如下所示:
(1)收集和分析实际应用中数据,评估模型的预测准确性和稳定性。
(2)通过用户调研和反馈,了解模型在实际业务流程中的集成度和用户满意度。
(3)评估模型对业务流程和决策的影响,量化其带来的效率提升、收入增加和成本节约。
(4)考虑模型的可扩展性和可维护性,评估其适应未来业务变化的能力。
(5)确保模型的安全性和合规性,评估数据保护和隐私合规风险。
如果您也喜欢请扫码关注,更多原创作品等着您!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-19
如何用好 Codex?OpenAI 内部实践指南:7 个最佳应用场景,6 个使用 Tips
2025-09-19
OpenAI 内部 Codex 使用指南曝光:顶级工程师的秘密武器!
2025-09-19
GPT-5-Codex 能替代GPT-5-high吗?
2025-09-19
真实、残酷的AI就业冲击——从一篇极其精彩的哈佛论文聊起
2025-09-18
AIOps探索:基于Coze和Jumpserver做运维智能体
2025-09-18
别再叫“聊天机器人”了:一个词,正悄悄拖慢你对 AI 的判断
2025-09-18
LLM 基础 Function Call 能力强化:从数据构建到 RLHF 的优化闭环
2025-09-18
当AI接管键盘,程序员的价值是什么?
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-09-16
2025-07-29
2025-09-08
2025-08-19
2025-08-20
2025-09-14
2025-09-19
2025-09-18
2025-09-18
2025-09-17
2025-09-17
2025-09-16
2025-09-14
2025-09-12