免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

史上最最通俗的,AI发展历程综述!

发布日期:2025-12-26 20:21:06 浏览次数: 1534
作者:AI大模型前沿

微信搜一搜,关注“AI大模型前沿”

推荐语

AI如何从科幻概念成长为改变世界的技术?一文读懂AI发展全历程。

核心内容:
1. 人类智能的独特性与计算机诞生的历史背景
2. AI技术发展的关键里程碑与核心技术突破
3. 当前AI应用案例与未来发展趋势展望

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

本文将追根溯源,从历史发展的时间线视角,深入探究AI的诞生历程,以及其在诞生后的几十年间所经历的变革与演进。在阐述演进过程时,我会详细介绍大量相关的细分技术模块,期望大家能对AI整体的技术模块及其相互关系形成系统化的认知。(鉴于篇幅限制,不会对某一技术进行极为深入的探讨,若大家对任一细分技术感兴趣,可单独交流。)最后,我将结合自身亲身参与的一些AI案例,探讨如何更有效地运用AI提升业务价值,同时展望AI的未来前景与发展趋势。(作者:丁亮亮/smallniding 

AI 简史:从神经元到现代大模型_ai发展史-CSDN博客

在当今信息爆炸、互联网飞速发展的时代,AI成为了近年来全球最为热门的科技话题。我们每天都会接触到海量的AI资讯,涵盖大模型、智能体以及各行各业的AI应用等。这使得我们不可避免地置身于AI的浪潮之中:在这个时代,若不积极拥抱AI,极有可能被时代所淘汰。然而,随着AI的不断发展,涌现出了大量的细分技术模块和专业术语,这让许多想要尝试AI的人感到困惑,他们或许并未深入思考过以下问题:究竟什么是AI?如何将AI与自身业务更好地结合应用?AI的未来发展前景如何?

一、前世:AI出现前

1、唯一的高等智慧动物 - 人类

人类最早以人猿的形态出现在地球上,历经数百万年的进化与发展,成功登上地球食物链的顶端,成为了地球上唯一具备高等智慧的动物。人类拥有复杂的多语言体系、强大的推理和抽象思维能力、卓越的创造与发明才能,以及至关重要的多文明体系。

人类能够取得如此成就,关键在于人类大脑的独特性。人类大脑具备支撑抽象思维、推理思维、语言创造、知识学习与传承、发明创造以及文明建立与传承等多维度能力,这些能力共同构成了人类的“智能”。

(人类大脑的简要结构图 - 图片来源于AI生成)

通过上图可以发现,除了左脑、右脑等分区结构外,还存在树突、轴突等专业术语,这些术语所代表的正是大脑中“神经元”的一部分。人类大脑约拥有860亿个“神经元”,这些“神经元”承担着所有信息的处理和传递工作,大脑的一切活动都依赖于它们的协同运作。这也使得人类自然而然地具备了感知、思维、情绪、运动控制、语言交流等多维度的智能能力。

(人类大脑“神经元”的工作原理 - 图片来源于AI生成)

在人类数百万年的发展历程中,大脑赋予了人类强大的智能能力,这是地球上其他动物所无法企及的。人类在发展过程中形成了各个地区独特的语言和文明,人们使用各自的语言进行交流、建设和发展文明,这种状态在数百万年中保持相对稳定。然而,人类逐渐意识到,尽管大脑功能强大,拥有数百亿个神经元,但在记忆和效率方面存在明显不足。例如,正常人背诵1000个数字会极为困难,进行100遍乘法运算后会感到困惑。于是,人类开始思考是否能够解放大脑,让机器代替人类完成一些工作。

2、第一台计算机诞生

(第一台计算机诞生 - 图片来源于AI生成)

这种需求催生了第一台计算机的诞生。1946年,莫奇利和埃克特发明了第一台计算机,它开创性地解决了“快速计算、精准存储”的问题。然而,这台计算机存在一个明显的局限性,即它只能按照指令执行任务,缺乏自主思考能力。例如,当你要求它进行1000遍乘法运算时,它能够迅速给出结果,但无法思考这些乘法之间的规则或关联,以便在未来更高效地完成类似任务。后来,科学家们发现,人类大脑的强大之处并非仅仅在于拥有860亿个神经元,更在于这些神经元如同“亿级路由器”般相互连接,形成了极其复杂的“神经网络”“神经网络”赋予了大脑自我学习、提炼规律的智能能力。基于此,科学家们萌生了一个想法:能否模仿人类神经网络,构建一个“机器神经网络”?这便是AI的雏形,我们将在下一章节详细探讨。

二、今生:AI初生期(1956 - 1989)

1、AI概念定义

1956年,在达特茅斯会议上,约翰·麦卡锡等科学家首次提出了“人工智能(Artificial Intelligence,缩写为AI)”这一专业术语,并明确提出了“让机器模拟人类智能”的研究目标。这一事件标志着AI作为一门独立学科的开端。

那么,究竟什么是“人工智能(AI)”呢?

其明确定义为:人工智能(AI)是让机器模拟人类智能的技术总称。

接下来的问题是,什么是“人类智能”?基于上一章节的内容,我们可以简要概括为:“人类智能”即是让机器具备“感知、思考、决策、执行”的能力。

(过马路示意 - 图片来源于AI生成)

下面通过一个“过马路”的例子,详细解释“感知、思考、决策、执行”的具体含义:

● “感知”:人类通过耳朵、眼睛等器官感知外界信息。在过马路时,我们能够看到红绿灯的变化,听到汽车的鸣笛声,这些“看”和“听”的行为就是我们感知能力的体现,通过感知,我们获取到相关信息。

● “思考”:当我们通过感知能力获取到信息后,会运用大脑进行分析和推理,这就是“思考”能力的体现。例如,在过马路时看到红灯亮起,我们会停下来等待绿灯亮起后再通过,这一过程就是思考的结果。

● “决策”:以过马路为例,当遇到红绿灯时,我们面临多种选择,如闯红灯或等待绿灯亮起后通过。最终,我们选择等待绿灯,这是出于安全考虑而做出的决策。

● “执行”:仍然以过马路为例,当我们做出等待绿灯亮起后通过的决策后,待绿灯亮起,我们会迈开脚步,穿过人行道,到达马路对面,这一过程就是执行决策的体现。

人类的“感知、思考、决策、执行”能力共同构成了“智能”能力。那么,要让机器具备这些“智能”能力,会面临哪些难点呢?

最大的难点在于,机器无法理解人类的语言,更谈不上进行分析、推理和思考。此时,另一个学科——自然语言处理(Natural Language Processing,缩写为NLP)便发挥了重要作用。

2、自然语言处理(NLP)

实际上,“自然语言处理(NLP)”并非随着AI的出现而诞生。1946年第一台计算机问世后,1950年图灵提出了“如果一台机器能通过文本对话让人类无法分辨它是人还是机器,那它就具有了智能”的观点,这正是“自然语言处理(NLP)”的目标。AI诞生后,为“自然语言处理(NLP)”提供了发展契机,使其成为AI早期发展中至关重要、相辅相成的模块。

那么,究竟什么是“自然语言处理(NLP)”呢?

首先,了解“自然语言”的概念。“自然语言”是指人类在日常生活中自然发展和使用的语言,如早期的甲骨文、象形文字,以及现代的各种语言(包括地方方言等)。而我们通常使用的编程语言并不属于“自然语言”范畴。“自然语言处理(NLP)”的定义为:让计算机能够理解、解释、操纵和生成人类自然语言,通俗来讲,就是教计算机“听懂人话、说人话、看懂人写的字、写出人能看懂的内容”

下面通过几个例子进行简单分析:

1、人与人之间的语言沟通通常是自然流畅的:

(图片来源于《深度学习进阶 - 自然语言处理》)

2、人类与动物之间存在语言沟通障碍,动物往往无法理解人类的话语(这也是科学界亟待攻克的难题之一,期待未来能取得突破):

(图片来源于《深度学习进阶 - 自然语言处理》)

3、有了自然语言处理(NLP)技术,人类与机器之间便能够实现有效的沟通:

(图片来源于《深度学习进阶 - 自然语言处理》)

3、AI初生期案例分析

自然语言处理(NLP)技术的支持下,AI在一些场景中初步得到应用,早期的机器翻译便是典型案例:

(早期机器翻译原理示意 - 图片来源于AI生成)

在早期的机器翻译中,存在词典、语法规则库、转换规则等预先设定的规则库,这些规则库决定了翻译功能的具体实现方式。

下面通过一个具体例子进行说明:

The apple is red.

这个英文句子较为简单,大家应该都能轻松翻译。下面我们来了解一下机器翻译的原理:

第一步:查词典

计算机会将句子拆分为单词,然后在一个庞大的电子词典中查找每个单词的含义。

英文单词

词典里给的主要中文意思

The

这/这个/那(通常放在最前面)

apple

苹果

is

red

红色的

此时,计算机得到了一组中文词汇:【这】【苹果】【是】【红色的】。

第二步:调整顺序

计算机会运用一条简单的语法规则:英语的 **[主词] + [is] + [形容词]** 结构,对应中文的[主词] + [是] + [形容词] + 的结构。

它识别出 “The apple” 为主词,“is” 为系动词,“red” 为形容词,与规则完美匹配。

于是,计算机按照规则对这些词汇进行排列,最终的翻译结果为:这苹果是红色的。

问题暴露:哪里不对劲?

从字面意思和语法上看,这个翻译并无错误,但存在一个不足之处:

● 表达不够地道:虽然“苹果是红色的”在语法上正确,但在日常口语中,我们更常说“这个苹果是红的”,或者直接说“苹果很红”。机器无法理解这种语言习惯和微妙差别。

这个简单例子揭示的根本缺陷:

● 缺乏灵活性:机器只会机械地应用规则,无法像人类一样根据语境、上下文或情感进行更合适的翻译。

● 缺乏“语感”:机器无法判断什么样的中文表达更自然、地道,导致翻译结果显得生硬。

4、AI初生期小结

通过这个机器翻译的例子可以发现,在AI初生期(1956 - 1989),尽管有自然语言处理(NLP)技术的支持,但AI大多只能按照人类预先设定的规则执行任务,表现得较为死板,缺乏灵活性。

如果将AI比作人类,这一阶段的AI最多只能算是一个只会死记硬背、不懂变通的小学生。一旦遇到超出其记忆范围的内容,它便会束手无策。我们可以将这一阶段的AI称为“规则式AI”

这也是AI后续进一步发展的重要原因,我们将在下一章节详细阐述。

三、今生:AI成长期(1990 - 2016)

在AI初生期(1956 - 1989),AI主要按照既定规则应用,这促使了AI在成长期(1990 - 2016)的进一步发展。

1、机器学习出现

这一阶段,一个重要的概念——机器学习(Machine Learning,缩写为ML)应运而生。

那么,什么是机器学习呢?它是指让机器从数据中自主学习规律,而非仅仅依赖人类编写的固定指令。

与之前的“规则式AI”相比,机器学习使机器不再局限于死板地遵循既定规则,而是能够通过自主学习大量数据,从中发现规律并加以应用。

2、AI成长期案例分析

下面以大家日常工作中常见的垃圾邮件过滤系统为例进行说明:

(垃圾邮件示意 - 图片来源于AI生成)

在AI初生期(1956 - 1989)

,垃圾邮件过滤只能依据既定规则进行,例如:

● 如果邮件标题中包含 “免费” 一词,则将其标记为垃圾邮件。

● 如果发件人地址包含 “spam”,则将其标记为垃圾邮件。

● 等等...

这种方法存在明显的缺点:

● 难以应对变种情况:除了 “免费” 之外,可能还会出现 “免 - 费” 或 “Free” 等变种表述,此时既定规则将失效。用户必须不断发现新的套路,并手动添加新规则。

● 可能会误判正常邮件:例如,你的朋友发送了一封标题为 “有个免费的讲座你想参加吗?” 的邮件,按照规则可能会被误标记为垃圾邮件。

那么,在AI成长期(1990 - 2016),我们该如何改进呢?

第一步:准备“学习资料”

为机器提供大量已分类的邮件,具体包括:

● 1000封已知的垃圾邮件(标记为“垃圾”)。

● 1000封已知的正常邮件(标记为“正常”)。

第二步:让机器自主“找规律”

机器会对这些邮件进行深入分析和统计。

它会自动发现以下规律:

● 在“垃圾邮件”中,“免费”、“优惠”、“发票”等词语出现的概率极高。

● 在“正常邮件”中,“会议”、“项目”、“放假”、“通知”等词语出现的概率较高。

最终,机器会形成一套自己的判断标准。

第三步:实际应用

假设收到一封新邮件,标题为 “关于国庆放假的通知”。

机器会对这封邮件的内容进行分析。

它发现“放假”、“通知”等词语与“正常邮件”的关联度较高,而“免费”、“优惠”等垃圾邮件高频词并未出现。

基于此,机器判断这是一封正常邮件。

(垃圾邮件技术原理 - 图片来源于AI生成)

通过这个案例可以看出,在机器学习技术的支持下,AI从单纯的“规则式”应用发展为结合“AI模型分析”,机器能够自主学习和总结规律。

3、AI模型出现

机器通过自主学习和总结规律所形成的成果,即为AI模型(Model)

那么,什么是AI模型呢?它是指一个通过大量数据训练出来的、能够识别特定模式或规律的数学函数或程序,通俗来讲,就是从数据中提炼出的“规律”或“经验”

AI模型的三大核心要素包括:

● 输入:接收新的数据(如收到一封邮件)。

● 处理:运用学到的规律对输入的数据进行计算或判断。

● 输出:产生判断结果(如判断邮件是否为垃圾邮件)。

通过上述案例,我们对AI模型的基本概念有了初步了解。

4、机器学习方法:监督学习

在上述案例中,我们为机器提供了2000封已分类的邮件(标记为“正常”或“垃圾”),让机器依据这些标注好的结果进行学习和总结规律。这种方法是机器学习的方法之一

我们将这种方法称为“监督学习”,即给机器学习的训练数据都带有明确的“标签”(如标注为“垃圾”或“正常”)。

除了监督学习之外,还有其他机器学习方法,我们将在下一章节详细介绍。

5、AI成长期小结

如果仍然将AI比作人类,这一阶段的AI可以类比为一个通过刷题总结规律的中学生。例如,针对中学的生物课程,该中学生通过大量刷题(包含答案),能够自主总结出规律和方法,在遇到类似题目时能够游刃有余地解答。

通过对大量数据进行统计和总结规律,我们可以将这一阶段的AI称为“统计式AI”

然而,存在一个重要问题:

这位中学生可能存在偏科现象,例如只专注于生物学科的刷题,而忽略了物理学科。当遇到物理学科中从未接触过的题目时,他可能会感到束手无策。

回到本章节所讨论的AI成长期(1990 - 2016),尽管AI通过机器学习变得更加强大,能够在给定一定学习数据的情况下自主学习和总结规律,但一旦遇到超出原始学习数据范围的情况,AI可能就会表现不佳。这是这一阶段AI发展面临的最大挑战,该问题将在后续的AI发展阶段中得到解决,这也是下一章节的重点内容,也是本文的核心所在。

四、今生:AI爆发期(2017年至今)

在AI成长期(1990 - 2016),虽然出现了机器学习的概念,并且通过机器学习训练出了AI模型,但这些模型存在明显的局限性,即“偏科”现象严重。一旦涉及到训练数据以外领域的知识,模型可能就会失效。那么,如何解决这一问题呢?

1、AI模型架构演进

我们仍以之前提到的垃圾邮件过滤系统为例,对AI模型架构的演进进行回顾和分析:

在AI初生期(1956 - 1989)

,垃圾邮件过滤主要依据既定规则进行,例如,如果邮件标题中包含 “免费” 一词,则将其标记为垃圾邮件。这种方法非常死板,未涉及模型的应用。

在AI成长期(1990 - 2016)

,我们通过机器学习(监督学习)训练出了AI模型(通常采用“朴素贝叶斯模型架构”),使模型能够自主判断收到的邮件是否为垃圾邮件,效率有所提高。

然而,该模型存在一个明显的缺点:

它只是简单地将邮件拆分为零散的词语,不考虑词语的顺序和句子的整体意思。例如,对于 “钱转给你” 和 “你把钱转走” 这两个句子,它会将其视为包含 “钱”、“转” 等词语的相同组合,无法理解前者表示正常收款,后者可能是诈骗预警。

为解决这一问题,RNN架构(循环神经网络)应运而生:

RNN架构不再将邮件拆分为零散的词语,而是逐词阅读整个句子,并尝试记住前面读过的内容。

这使得它初步具备了 “上下文” 概念,能够理解一些简单的句子结构。

然而,RNN架构存在一个关键问题,即 “健忘症”。当处理较长的邮件时,它在阅读到结尾时往往会忘记开头的内容。例如,邮件开头提到 “关于上次开会的项目报告...”,结尾要求 “...请支付费用”,它可能会忽略开头的重要信息,仅根据结尾的内容做出错误判断。

为克服RNN架构的 “健忘” 问题,CNN架构(卷积神经网络)出现:

CNN架构每次只关注相邻的几个词语,能够敏锐地捕捉局部短语特征。例如,当看到 “难以置信的” 和 “优惠” 时,它能判断这可能是一个广告短语;看到 “验证您的” 和 “账户” 时,它能意识到这可能是一个安全提示。通过这种方式,CNN架构提高了处理效率,但它无法同时获取邮件的全文信息。

CNN架构的主要问题在于缺乏全局观:

例如,一封邮件开头可能是正常的商务沟通,仅在最后一句巧妙地植入了诈骗链接,由于前面的内容均为正常的局部信息,CNN架构可能会忽略诈骗链接,难以理解邮件的整体逻辑和核心意图。

综上所述,上述AI模型通过架构的优化和演进,能力有所提升,但仍存在明显的缺陷:

● “不懂语法”:仅关注零散的关键词,忽略句子的整体结构。

● “认真但健忘”:处理长文本时效率低下,容易遗忘重要信息。

● “眼光狭隘”:缺乏全局观,难以理解文本的整体逻辑和核心意图。

2、Transformer架构出现

鉴于上述模型的缺陷,2017年,Google的研究团队发表了一篇名为《Attention Is All You Need》的论文,正式提出了Transformer架构

Transformer架构由此诞生!

下面以邮件垃圾过滤为例,介绍Transformer架构的工作原理:

假设有一封可疑邮件,内容为:“尊敬的客户,恭喜您获得10W奖金!请点击唯一链接 http://xxx.com领取”

第一步:同时查看所有关键信息(并行处理)

与之前的RNN架构逐字阅读不同,Transformer架构能够同时获取邮件中的所有词语信息。

第二步:划重点并分析(自注意力机制)

Transformer架构会分析词语之间的关联关系,例如,它会发现 “奖金” 与 “链接”、“领取” 之间的关联度极高。这种 “中奖 - 链接 - 领取” 的模式类似于常见的诈骗套路。

第三步:全局推理,看穿意图

Transformer架构能够理解邮件的整体逻辑,判断这是一封群发邮件,利用虚假的高额奖金作为诱饵,诱导收件人点击可疑链接http://xxx.com

它关注的是邮件的整体意图,而非简单地匹配关键词。

第四步:做出最终决定

基于以上分析,Transformer架构能够准确判断这是一封钓鱼诈骗邮件,并将其放入垃圾箱。

通过这个例子可以看出,采用Transformer架构的垃圾邮件过滤器利用“自注意力机制”能够做出精准的判断。那么,什么是 “自注意力机制” 呢?通俗来讲,它是指模型在处理句子时,能够同时关注所有词语,并智能地判断词语之间的重要关系。

Transformer架构的革命性突破,为AI爆发期的发展奠定了关键的技术基础。

3、AI大模型出现

有了Transformer架构,AI模型得到了革命性的改进和优化。基于这一契机,OpenAI于2018年推出了生成式模型GPT - 1GPT - 1拥有1.17亿参数。这里的 “参数” 类似于人类大脑神经网络中的 “神经元”。在本文的第一章节中,我们提到人类大脑的强大之处在于数百亿个 “神经元” 构成了复杂的 “神经网络”,而AI模型中的 “参数” 同样对模型的性能起着关键作用。

此后,OpenAI在AI领域持续发力,于2019年推出了GPT - 2(参数扩大到15亿),并在2020年推出了GPT - 3(参数规模达到1750亿)。随着参数规模的不断扩大,AI模型的能力得到显著提升,这也是为了解决AI成长期中模型 “偏科” 的问题,使AI模型具备更广泛、更强大的知识储备,能够覆盖多个领域。

基于此,大模型(Large Model,缩写为LM)应运而生!

那么,什么是大模型呢?其基础定义为大规模人工智能模型

这里的“大规模”具体指参数规模巨大。通常情况下,我们将参数规模在10亿以上的模型视为入门级大模型。截至2025年,我们一般将参数规模在100亿以上的模型定义为大模型,例如混元大模型旗下的TurboS大模型,其参数量高达5600亿。

4、大模型、中模型、小模型

既然有了大模型,那么是否存在中模型和小模型呢?

答案是肯定的!以下表格将简要对比大模型、中模型和小模型的差异:

尽管中小模型在特定场景下具有高效性,但对于大多数读者而言,在工作和生活中,大模型的应用更为广泛。因此,我们将继续深入探讨大模型的相关内容。

5、大语言模型

在AI初生期(1956 - 1989),AI与 “自然语言处理(NLP)” 相互促进、共同发展。这是因为人类在探索AI的初期,主要通过自然语言处理与机器进行交互,让机器理解人类语言是最直接的应用方式。大模型出现后,最初的表现形式为大语言模型(Large Language Model,缩写为LLM)

● Large(大):不仅指参数数量巨大,还意味着训练数据量庞大。

● Language(语言):自然语言。

● Model(模型):能够识别特定模式或规律的计算模型。

2020年推出的GPT - 3是典型的大语言模型,拥有1750亿参数。此后,大语言模型不断发展演进,2023年OpenAI正式推出了GPT - 4,其参数量进一步增加,性能更为强大。与GPT - 3只能处理文本不同,GPT - 4不仅可以处理文本,还具备处理图像的能力。除了GPT系列,还有腾讯的Turbos、DeepSeek等大语言模型。

6、除了大语言模型还有哪些模型?

上文对大语言模型的定义和特点进行了详细介绍。大语言模型作为AI大模型的早期核心形式,在后续的发展中,出现了文生图、图生视频等多种类型的大模型。从应用类别来看,大模型的应用已经不再局限于语言处理领域。以下图片将展示大模型的整体应用生态:

(大模型宇宙)

7、机器学习方法:无监督学习

在AI成长期(1990 - 2016),“机器学习” 的概念开始兴起,通过监督学习的方法,机器能够自主学习和总结规律,从而生成AI模型。

那么,像GPT这类AI大模型是如何进行训练(这一阶段通常称为 “预训练”)的呢?

实际上,大模型的训练同样采用了机器学习方法,但更为 “深度”。这里的 “深度” 主要体现在机器学习过程更为复杂,分多个步骤进行,每个步骤学习不同的规律,从简单到复杂,逐步深入。由于大模型的参数量巨大,训练所需的数据量也极为庞大,无法像之前那样为每个数据标注标签。例如,GPT这类通用大模型需要学习互联网上的海量知识,人工无法为每一条知识进行标注。因此,大模型需要自主从大量数据中总结规律,判断知识的正确性。

这种机器学习方法被称为 “无监督学习”。

8、深度神经网络、深度机器学习和传统机器学习

由于大模型的参数量和训练数据量巨大,需要更复杂的网络结构来支持。之前提到的RNN、CNN、Transformer等架构均属于“深度神经网络”的范畴。在深度神经网络的支持下,大模型预训练阶段的机器学习范式被称为“深度机器学习”,也可简称为“深度学习”。而在AI成长期(1990 - 2016)所采用的机器学习范式则被称为“传统机器学习”

9、以ChatGPT、SD等案例分析

目前,大模型技术已经取得了显著发展,除了GPT系列,还有Google的Gemini、百度的文心一言、阿里的通义千问以及腾讯的混元等大模型。然而,对于普通互联网从业者来说,这些大模型可能显得较为遥远。直到2023年ChatGPT正式问世,才让人们真正感受到大模型的强大和实用价值。

(ChatGPT聊天界面 - 图片来源于AI生成)

借助ChatGPT,我们能够与人工智能展开自然流畅的对话,领略其丰富的知识储备与强大的智能能力。同时,ChatGPT的趣味性也使人们对人工智能有了全新的认知。我们既可以向ChatGPT咨询任何感兴趣的话题,也能够利用它提升工作效率。

ChatGPT的出现为近年来人工智能的爆发式发展奠定了基础。此后,基于大模型的人工智能应用大多以对话形式呈现,如ChatGPT、豆包、元宝等。这是因为对话是最为直接且便捷的交互方式。

随着与人工智能对话的日益增多,人们或许会认为人工智能的能力仅局限于对话。然而,几乎与ChatGPT同期,Stable Diffusion(缩写为SD) 应运而生,它是一款文生图大模型,打破了传统的对话生成文本模式,能够依据输入的文本生成高质量的图像。(同期还有Midjourney,前者为开源模型,后者为闭源模型。)

对于类似SD、Midjourney这样的文生图大模型,我们需要输入一段文本来让人工智能生成图像,这段文本实际上就是提示词(Prompt),下面我们通过一个例子来了解:

Prompt:一只猫在吃饼干-图片来源于AI生成)

Prompt:写实风格,在一个阳光明媚的早晨,一只金渐层猫在草地上,用爪子拿着一块饼干往嘴里吃-图片来源于AI生成)

10、提示词工程

提示词工程是一种与人工智能有效沟通的连接方式,通过上述例子我们可以简要总结整体原则:你为人工智能提供的提示词越清晰、越具体,所获得的结果就越理想。掌握这项技能,你将能够充分释放大模型的巨大潜力。

通过文生图体验,大家可以发现,基于人工智能大模型,我们不仅能够生成文本,还能生成图片!

但是有一个关键问题:

只能输入文本,如何确保得到的是自己想要的图片呢?例如,我希望上面例子中的猫与我家的猫长得一样,但仅通过提示词(文本描述)很难使生成的猫与我家的猫一致...

那么,是否存在解决办法?

当然有,我们直接来看例子:

这是我家的猫(一只美短,名叫“小白”):

我将“小白”的这张照片发送给人工智能大模型,同时撰写了一段提示词,进而生成相关图片:

Prompt:写实风格,在一个阳光明媚的早晨,“小白”在草地上,用爪子拿着一块饼干往嘴里吃-图片来源于AI生成)

可以看出,生成的图片更符合预期。但大家是否注意到,我们向人工智能既输入了文本又输入了图片(小白的照片),而人工智能为我们输出了一张最终的图片,这与之前的ChatGPT体验截然不同!(笔者注:其实,最新的ChatGPT已经支持既输入文本又输入图片,基于GPT - 4o大模型)

我们甚至可以既输入图片又输入文字,然后让人工智能生成视频!

11、多模态、单模态

这种既能输入文本又能输入图片的方式,实际上就是人工智能大模型的多模态(Multimodal)

那么,究竟什么是多模态?我们先来回顾一下人工智能模型的三要素:

● 输入:接收数据

● 处理:运用所学规律进行思考、推理

● 输出:产生结果

我们关注到人工智能模型的输入和输出这两个重要环节,可对多模态作如下定义:输入或输出端能够同时处理、理解和关联多种不同类型的信息。就像我们刚刚的例子,大模型在输入端同时接收到文本和图像信息,然后进行理解、推理,在输出端生成一张新的图片或一个新的视频。

实际上,在介绍了多模态之后,与之对应的还有单模态(Unimodal)。对照多模态的定义,我们就较容易理解单模态了,即:在输入和输出端分别专注于一种类型的信息处理。像我们之前提到的GPT - 3、GPT - 4以及腾讯的混元Turbos等均为单模态大模型,因为它们无论在输入端还是输出端都只能处理文本。下面我们用一张图来简要解释“单模态”和“多模态”:

(“单模态”和“多模态”对比)

12、开源、闭源

大模型除了有“单模态”和“多模态”的区分外,还有一个重要的维度区分,即“开源”还是“闭源”。例如,之前同期的文生图大模型既有SD又有Midjourney,前者是开源的,后者是闭源的。那么,我们来看看开源和闭源究竟有何区别:

实际上,“开源”与“闭源”并无对错之分,也不存在谁优谁劣,二者共同推动了整个人工智能领域的飞速发展。开源是创新的源泉,闭源是商业化应用的标杆。如果个人打算尝试使用某种模型进行实践,最重要的是根据自身需求、技术能力和资源,做出最为合适的选择。

13、智能体的出现

在了解了大模型的整体介绍后,我们会发现,无论是使用单模态的ChatGPT(基于GPT - 4)进行对话,还是使用多模态的ChatGPT(基于GPT - 4o)进行“文 + 图”生成图片,都已算是在应用层使用人工智能大模型了。

那么,我们能否利用ChatGPT策划一次旅行并做好预算呢:

你:“帮我策划一次三亚旅行”

ChatGPT:“好的,为您规划一个三亚5日游的行程框架供参考...”

它可能会输出一个极为笼统的模板式行程:

● Day 1: 抵达三亚,入住酒店,在附近海滩漫步。

● Day 2:...

你发现的问题:该行程过于泛泛而谈,完全未考虑你的预算、偏好(如是否喜欢潜水、是穷游还是舒适游),而且信息是静态的,没有实时价格。

你:“这个行程太简单了。我需要一个更详细的计划,包括具体的航班时间、酒店名称和价格参考。我的预算人均是8000元。”

ChatGPT:“好的,基于人均8000元的预算,这是一个更详细的计划示例...”

● “航班:可选择北京 - 三亚的XX航空,参考价格1500元往返。”

● “酒店:可入住XX酒店海景房,参考价格600元/晚。”

● “...”

你发现的问题:价格是过时的:它无法联网获取真实实时价格,这些价格毫无意义。

需要你验证:你得自行打开携程或航司官网,逐一查询这些航班和酒店的真实价格。

决策点又抛回给你:“XX酒店”真的好吗?它无法查看真实用户的评价。

你:“现在,帮我查一下下个月从上海出发到三亚,最便宜的非红眼航班是哪天?列出时间和价格。”

你:“等等,把预算表单独做出来,分机票、酒店、餐饮、门票、市内交通几项。”

你:...

你会发现,所有的规划(先查什么、后查什么、如何取舍)都需要你自行思考,你需不断发出“下一步做什么”的指令。

那么,是否存在一种人工智能,你只需告知它一个目标,它就能自行规划、执行,直至将结果呈现在你面前?

当然有,此时就不得不提及“智能体(Agent)”这一概念了!实际上,“智能体”的概念并非近几年才出现,在人工智能成长期(1990 - 2016)之前,就已有基础定义(来源于学者伍尔德里奇和詹宁斯):智能体是一个位于特定环境中的计算机系统,它能够自主行动,以实现其设计目标。

(“智能体”演进)

还有一个更易理解的定义是:能够感知环境、进行决策,并自主采取行动以实现某种目标的系统或程序。

我们发现“智能体”几个关键因素为:**“感知”、“决策”、“目标”、“自主行动”**。大家可以思考一下,之前我们通过ChatGPT输入一个提示词来生成一张图,那么这一阶段的ChatGPT是否为智能体呢?我们可以进行简单分析:

显而易见,如果仅仅是通过“文生图”的ChatGPT,并不算是一个“智能体”,最多只能称其为“智能体雏形”,或者可称作一个“应用”或“工具”。

“智能体”的“自主行动”通常较难理解,我们再通过一个生活化的例子来帮助大家更好地理解:

场景一:指挥一个“听话的助手”(这是非自主的)

你对他说:“小C,打开冰箱。”

“拿出西红柿和鸡蛋。”

“打开燃气灶。”

“把锅烧热,倒油。”

“先把鸡蛋炒熟盛出来。”

“再炒一下西红柿。”

“最后把鸡蛋倒回去,放盐,翻炒几下出锅。”

你会发现,每一步具体的动作都需要你精确下达指令。这个助手很能干,但缺乏自主意识,完全依赖你的指挥。这就是“自动化”,缺乏自主行动。

场景二:交给一个“靠谱的私人助理”(这是有“自主行动”的智能体)

你对他说:“小王,我有点饿了,帮我做顿饭吃吧。然后你就可以去忙别的事了。

这个“小王”(智能体)会展现出真正的“自主行动”:

● 他内心会盘算:“老板饿了。我得先查看冰箱里有什么,然后决定做什么,再动手。”

● 他自行决定打开冰箱查看食材。(感知)

● 他发现有意面、西红柿和牛肉,自行决定做番茄肉酱意面。(决策)

● 他自行决定先后顺序:先烧水、同时切西红柿、再炒肉酱……(规划)

● 发现盐用完了,他不会陷入困境,而是自行决定用酱油代替。(动态调整)

● 发现意面煮多了,他会自行决定先盛出一部分作为明天的午餐。(灵活处理)

● 最终交付:过了一会,他端上一盘香喷喷的意面,并告诉你:“老板,饭做好了。盐用完了,我用了点酱油调味,你看合口味吗?”

我们可以简要总结,“自主行动”即:“赋予它一个目标,它能够自行制定一套计划、完成过程、应对变化,最终为你提供结果”的能力

我们可以设想一下,如果给ChatGPT一段提示词“生成一张猫吃饼干的图片”,此时它经过思考:“猫是什么品种的猫比较合适?饼干是什么类型的饼干?应该处于什么场景更佳?”,然后通过各种工具或方法生成多张猫吃饼干的图片,供我们选择,并且在选择后还能继续优化。如果是这种方式,它是否属于“智能体”呢?

答案是:当然是!它完美满足了“智能体”的“目标”、“感知”、“决策”、“自主行动”几个关键维度的定义。(请参阅最新豆包的文生图体验,所以我们可以暂且将豆包视为一个智能体)

我们探讨了诸多智能体的基础定义,旨在帮助大家清晰地理解智能体的概念。

此前,我们在本文中提及了大量关于大模型的基础知识,那么“大模型”与“智能体”究竟存在怎样的关联呢?

通俗来讲大模型宛如一个无所不知、博古通今的智慧大脑,而智能体则是在拥有这一强大大脑的基础上,还具备了灵活的手脚,能够通过感官获取信息,经过思考与决策后,主动完成复杂任务的“全能机器人”

简要总结:

● 大模型是智能体的 “能力基石”:若没有大模型,智能体将无法进行理解与思考,只能机械地执行固定指令。

● 智能体是大模型的 “落地拓展”:仅有大模型,只能进行理论层面的探讨,智能体通过搭配工具、设定目标,使大模型的能力从“纸上谈兵”转变为实际行动。

● 两者是 “分工协作” 关系:大模型负责深度思考与分析,智能体负责精准执行与落实。

14、如何开发一个智能体应用?

倘若我们想要自主开发一个智能体应用,应该采取哪些步骤,过程中又可能会遭遇哪些问题呢?

下面,我将以今年参与的三个AI项目为例进行简要分享,分别为:瓦手AI放号官、瓦手AI抢ID、英雄联盟AI赛事助手。

今日,我将着重分享此前文章未曾涉及的内容。以我负责的三个项目为例,开发一个智能体应用,大致可遵循以下流程:

1.需求确认与策划 :明确项目的具体目标,即确定期望借助AI解决的问题或提升的用户体验。

2.技术选型与架构设计 :选择合适的大模型(智能体的核心大脑)、智能体平台/框架以及工具链。

3.核心开发 :开展核心功能的开发工作。

4.智能体调优与测试 :探索智能体调优的有效方法。

5.项目上线运营与迭代:持续推进项目的运营,并进行优化与迭代。

下面,我们将依据上述流程,对我负责的三个案例进行简要分析:

大家会发现,在智能体项目的整体开发过程中,最为关键的环节在于需求确认与策划技术选型以及智能体调优,而智能体调优更是这三个环节中的重中之重。

为何说“智能体调优”这一环节至关重要呢?因为在开发AI智能体应用时,AI效果是否达到预期,关键在于智能体调优是否做到极致。在上述三个项目中,智能体调优的方法基本一致,这表明大部分智能体应用的调优方法具有一定的通用性。关于其中的提示词工程,前文已提及,在此不再赘述。接下来,我们将重点探讨两个新出现的专业术语:“RAG”和“微调”。

15、检索增强生成(RAG)

检索增强生成(Retrieval-Augmented Generation 缩写为RAG),具体解释如下:

● 检索:从外部知识库中精准查找与问题相关的信息。

● 增强:利用检索到的信息对大模型的知识进行“增强”或“补充”。

● 生成:大模型基于这些补充信息,生成更为准确、可靠的答案。

通俗来讲:在智能体的大脑(大模型)输出内容之前,先让其主动从庞大的知识库(如文档、数据库、互联网)中“查阅资料”,然后依据查到的资料组织并生成答案。

若智能体未采用RAG,就如同参加闭卷考试的学生,只能凭借记忆(预训练阶段所学知识)答题。一旦问题超出其记忆范围,就可能答错或随意编造答案。

若为智能体添加RAG,则如同参加开卷考试的学生,遇到问题时可先查阅指定的教科书和笔记(检索外部知识库),再结合自身理解(模型的推理能力),给出有依据、内容准确的答案。

(瓦手AI项目建立的知识库 - 小部分示意)

16、微调:基于监督学习和强化学习

在智能体调优过程中,提示词工程、RAG等方法主要作用于模型的输入阶段,旨在使输入更有效。若要更好地优化智能体的输出,还需运用:微调。提示词、RAG等改变了输入环节,而微调本质上改变了AI模型(对于开源大模型而言是模型副本,对于闭源大模型而言是“适配层”)。

(瓦手AI项目基于人工反馈的监督学习)

强化学习可使智能体通过试错,自主掌握一整套“决策链”或“策略”,以实现长期奖励的最大化。

下面,我们以生活中训练狗狗为例,阐释强化学习的概念:

小狗听到主人下达“坐下”的指令。

它尝试趴下(做出动作)。

驯兽师未给予零食(未给予奖励)。

小狗又尝试坐下(做出新动作)。

驯兽师立即给予零食(给予奖励)。

经过无数次尝试,小狗学会了策略:当听到“坐下”指令时,执行“坐下”动作可最大化获得零食的长期收益。

监督学习为模型提供标准答案(例如告知模型是goodcase还是badcase),但倘若数据量极为庞大,每次都依靠人工标注所有数据将不切实际。基于人工反馈的强化学习(RLHF)则是更为高效的方法,通过构建评分奖励模型,让AI学习评分标准,经过反复学习生成高分结果,从而达成预期效果。

运用上述智能体调优方法,旨在使我们开发的AI应用更贴合预期,例如使AI的回答更加准确、有趣。

17、大模型的幻觉问题

实际上,在项目实施过程中,我们有时会发现AI的回答并非完全准确,这便是大模型的“幻觉”问题:大模型生成看似合理,但实际上错误、荒谬或虚构信息的现象,简单来说,就是AI一本正经地胡说八道。

我们采用的一些智能体调优方法,本质上是为了解决“幻觉”问题。“幻觉”问题产生的主要原因在于,当我们期望AI输出超出其认知范围的内容时,它可能会随意作答或答错。

除了通过RAG、提示词工程、微调等方法调优智能体,提升AI输出的准确性外,我们还可采取以下措施:

● 答案溯源:要求模型在生成答案时注明引用的源文,以实现二次校验。

● 自我批判:促使模型对自身生成的答案进行自我审查。

● 高准确性信息采用固定信源:例如,让AI赛事助手的赛程、赛事等信息从固定接口获取,而非通过联网搜索。

● 等等

简要总结,幻觉是当前大模型普遍存在的问题,包括GPT系列以及现有的所有通用大模型均存在“幻觉”现象。我们现有的调优手段,如RAG、提示词工程、SFT、RLHF等,其重要目标之一是最大程度地管控和减少幻觉,但无法完全消除。因此,我们在优化AI输入阶段的同时,也应谨慎对待AI的输出阶段,这是每位AI从业者应具备的重要意识。

18、AI爆发期小结

自2017年至今的短短几年间,AI迎来了爆发式发展,大模型如雨后春笋般涌现,相关的智能体应用也层出不穷。现阶段(即我们正在经历的时期)的AI,犹如一位饱读诗书的大学生,不仅拥有丰富的知识储备,还积累了一定的实践经验。未来,它将步入社会,成为职场中的专业人士,将多年积累的知识和实习经验更好地应用于实际工作中。同样,我们可将这一阶段的AI称为“深度学习/大模型AI”。

五、未来

不知大家是否关注了2025英伟达GTC大会,该大会揭示了诸多与未来AI发展极具想象空间的模块,如AGI、具身智能、量子计算、6G、人机协同等,感兴趣的同学可深入了解。

下面,我将分享个人的AI观点:从历史发展的时间线来看,AI已历经数十年,但真正实现爆发式增长仅在近几年。这背后的原因在于数据、算力、算法三个关键模块的逐步成熟:

● “数据”:近几十年来,我们的生活方式、工作方式等全面向数字化转型,积累了海量的数据。

● “算力”:云计算、GPU等技术的不断迭代与革新,为AI的发展提供了坚实的基础支撑。

● “算法”:以Transformer架构为代表的深度学习为大模型的发展开辟了无限可能。

在这三个模块的推动下,AI从最初的自然语言处理领域拓展至多维度物理世界(如图像、视频、音频等)的处理,在具体应用形态上,也从最初的内容生成(AIGC)延伸至辅助办公(如编码提效、美术生产提效、产研提效等),并开始在各个垂直行业(如医疗、教育等)进行初步探索。

在整个发展历程中,

AI从最初的“规则式AI”演进为“统计式AI”,再发展到如今的“深度学习/大模型AI”。

若将AI比作人类,它已从最初的小学生成长为如今的大学生。

然而,大部分互联网从业者可能仍停留在AI的应用层面,或者在AI出现后便急于使用。

但实际上,我们更应深入思考:为何要使用AI?AI当前能够实现哪些功能,未来又有怎样的发展潜力?使用AI会带来哪些改变?若不使用AI又会产生何种影响?

未来,AI将不再仅仅是一种工具,更是我们不可或缺的“伙伴”。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询