微信扫码
与创始人交个朋友
我要投稿
2022年11月30号,OpenAI推出ChatGPT后随即爆火,五天注册用户数过百万,2个月用户破1亿,成为史上增长最快的消费者应用。随后各大厂也纷纷卷入AIGC领域,迎来国产GPT大模型发布潮以及AI创业公司成立潮。
大模型代表一个新的技术AI时代的来临,大模型展现出的强大的语义理解,内容生成以及泛化能力正在逐渐改变我们的工作与生活方式(AI+)、工作方式和思维方式。正如《陆奇的大模型观》所讲,当前我们正迎来新范式的新拐点,从信息系统到模型系统过渡,"模型"知识无处不在。人工智能的浪潮正在引领新的技术革命,或许可称为第五次工业革命。
2024年2月16日,OpenAI正式发布文生视频模型Sora引发全球关注。Sora可以根据用户的文本提示快速制作长达一分钟的逼真视频,这些视频可以呈现具有多个角色、特定类型的动作、主题和背景等准确细节的复杂场景。而像Pika等其他主流的视频生成模型大多只能维持5s左右的动作和画面一致性,而Sora可在长达17s的视频中保持动作和画面的一致性。
优势:60s超长时间、运动镜头下内容一致性、现实场景真实感。
2024年3月13日,明星机器人创业公司 Figure,发布了全新 OpenAI 大模型加持的机器人 demo。视频中Figure demo机器人展示与人类的对话,没有任何远程操作。机器人的速度有了显著的提升,开始接近人类的速度。引起对机器人的发展速度感到震惊,我们似乎正处在这场汹涌的进化浪潮中。甚至有人感叹,已经准备好迎接更多的机器人了。
大模型基础知识
AI、AIGC、AGI、ChatGPT的基本概念在人工智能的领域里面,以上四个词是四个不同的概念。
人工智能(AI)是最广泛的概念,泛指通过机器模拟和执行人类的智能功能的技术。指的是由人制造出来的系统或软件,这些系统或软件能够执行通常需要人类智能才能完成的任务,如视觉感知、语音识别、决策制定和翻译等。泛AI概念包括的内容很大,包括狭义和广义定义的AI。
狭义的AI即弱人工智能,指可以执行特定任务的智能系统,只能在特定的场景和范围内体现智能行为。比如语音识别、图片识别、智能驾驶;
广义的AI即强人工智能,值得是具备和人类一样的智能水平和认知能力的系统。能够在复杂的环境下自主学习、推理、理解、适应,有更高级的智能表现。
通用人工智能(AGI)是广义AI的一个子集,指能在各个领域和方面都能达到人类智能水平的系统,具备人类的多样性和灵活性。AGI是AI研究的终极目标之一,AGI能够跨领域执行多种任务,具备自我学习和适应的能力,可以进行各类的学习和推理任务,并且具备自我意识和通用智能。
AIGC,全名“AI generated content”,又称生成式AI,意为人工智能生成内容,是利用AI技术自动创作出新的内容,这包括但不限于文字、图像、音乐、视频等。AIGC技术的核心优势是能够大大减轻人类创作者的负担,提高内容生产的效率和规模,同时也能够创造出全新的、创意性的作品。
可以简单理解为,AIGC的水位,介于弱AI与AGI之间,是AGI在特定领域(内容生成)的一个削弱型应用。AIGC目前已经有很多广泛的应用,而相反,AGI则处于研究阶段,且在实际落地过程中,肯定会面临严格的机器人伦理问题。
大语言模型一般指在大规模的文本语料上训练,包含百亿甚至更多参数的语言模型。大语言模型采用的架构目前基本是基于transformer的架构。那么LLM近期爆火,在之前却没有很好的表现的一个很重要原因是,只有语言模型的规模达到一定量级的时候,某些能力才会出现。(称之为涌现能力)。代表性的包括:上下文学习、指令遵循、逐步推理等等。
如Transformer架构的GPT-3、BERT、T5等模型。这些模型通过在海量数据上进行训练,能够学习到丰富的语言和知识表示,并展现出强大的自然语言处理能力。
ChatGPT是"Chat Generative Pre-trained Transformer”的缩写,ChatGPT是一种基于人工智能技术的聊天机器人,能够进行自然语言理解和生成,提供流畅且类人的对话体验。是史上增长最快的消费者应用,可以应用于各种场景,能用于问答、文本摘要生成、机器翻译、分类、代码生成和对话。
大模型架构
2017年前,transformer架构前的部分经典架构如下:
N元文法(n-gram)
多层感知器(MLP)
卷积神经网络(CNN),常见于计算机视觉;
循环神经网络(RNN,Recurrent Neural Network),一个很强大的神经网络模型,能预测序列数据,比如文本、语音和时间序列。
当下最火的当属2017年的transformer架构,Transformer是目前最常见的语言模型的基本结构。transformer架构涉及大量的概念和应用,比如编码-解码(encoder-decoder),注意力机制(attention),kqv(key、Querry、value)等。
Transformer模型的核心架构可分为编码器和解码器。即编码器将输入序列编码成一个向量,而解码器则从该向量中生成输出序列。
简单的工作流程如下:
1、获取输入句子的每一个单词的表示向量 X,X由单词的 Embedding(Embedding就是从原始数据提取出来Feature) 和单词位置的 Embedding 相加得到。
2、将得到的单词表示向量矩阵 (如上图所示,每一行是一个单词的表示 x) 传入 Encoder 中,经过6个 Encoder block 后可以得到句子所有单词的编码信息矩阵C
3、将 Encoder 输出的编码信息矩阵 C传递到 Decoder 中,Decoder 依次会根据当前翻译过的单词 1~ i 翻译下一个单词 i+1 。
使用ChatGPT的时候会发现输出结果是一个字一个字蹦出来的,这是Transformer的结构导致的。
简单理解:可以将Transformer模型学习和预测的过程看成是语言翻译。如果模型是将A语言翻译成B语言,那么Transformer模型结构中的编码器是将输入的A语言翻译成模型语言,而解码器则是将模型语言翻译成B语言。
Transformer模型之所以具备强大的功能,可以归功于模型中应用的注意力机制。何为注意力机制?对于一张图,我们并不会同等地查看图中的每个位置,而会自动提取“重要的位置”。
Attention = 注意力,从两个不同的主体开始。(两个主体互相注意,我注意到他,他注意到我)
NLP领域最开始用于翻译任务,天然是source、target,D翻译第一个词的时候,有个attention的机制关注到前面的所有词,但是权重不一样。简单理解:计算词之间的相近关系。
以上图片可以解读为:一段自然语言内容,其自身就「暗含」很多内部关联信息。例如上面这句话,如果用“自注意力”机制,应该给与“知识”最多的注意力,因此可以认为:
一段自然语言中,其实暗含了:为了得到关于某方面信息 Q,可以通过关注某些信息 K,进而得到某些信息(V)作为结果。(Q 就是 query 检索/查询,K、V 分别是 key、value。所以类似于我们在图书检索系统里搜索「NLP书籍」(这是 Q),得到了一本叫《自然语言处理实战》的电子书,书名就是 key,这本电子书就是 value。只是对于自然语言的理解,我们认为任何一段内容里,都自身暗含了很多潜在 Q-K-V 的关联。)【qkv机制后续在图片领域也有大量的应用,可以熟悉一下这个机制】
关于transformer架构,还有很多的逻辑和知识,不做枚举。且后续大量的逻辑会基于向量和矩阵展开,不易理解。简单的罗列下为什么这个架构后面带来了大量的变革。即架构的优势:
快:比起2017年前的rnn,transformer并行性更好;
记忆力好:词间距缩短为1,长文本的时候,可以有更多的容量;
处理不同长度的序列:不需要输入的数据序列是固定长度的。
一个预训练模型,在处理下游任务时,不微调模型参数,只需要在输入时加一些示例,就能有 SOTA(state-of-the-art,即最优秀的模型) 的表现,这就是模型的上下文学习(In-Context Learning,ICL)能力。
ICL 能力的直接应用:Prompt Engineering
2022 期间很多学界人士的研究重点都转向了 Prompt。首先一般性地「Pretrain, Prompt」到了 Prompt 环节,可能是给模型输入 x 期望得到输出 y。但是如果我们对使用者给出的 x 进行二次加工(比如把这个加工表示为一个函数 f(x)),是否能在输出上获得更好的结果 y 呢?甚至可以优化输出的结构,得到更好的结果。
举个例子。比如模型的使用者想问「自驾去杭州周边两天一夜玩,有什么推荐的地方吗?」,模型返回了「南浔古镇」。而如果通过 Prompt Engineering 优化一下可以这样:
这样 f(x) 就是 Prompt Engineering,而 g(x) 其实是 Answer Engineering。
ICL的数学原理和底层逻辑其实目前没有明确定论,也比较复杂。简单对ICL总结用于指导后续应用,包括:
在 prompt 里带上 demo 是很重要的,而且 demo 在形式上 input 和 label 都需要。
对于 demo 中的 input,不要乱来,要给出比较合理的 input。
对于 demo 中的 label,只要它属于正确的值域空间 label space 就可以了,是否与 input 有 correct mapping 不重要。
Prompt的专业与否 直接关系到以下两方面的结果效果:
1、大模型回复的准确性和针对性:好的Prompt才可以帮助模型更好地理解你的意图和需要。
2、大模型回复语句的自然度:好的Prompt可以帮助模型更好地处理歧义,以及上下文依赖性等问题,提高模型回答的自然度。
Elavis Saravia 总结的框架:
Instruction(必须):指令,即你希望模型执行的具体任务。
Context(选填):背景信息,或者说是上下文信息,这可以引导模型做出更好的反应。
Input Data(选填):输入数据,告知模型需要处理的数据。
Output Indicator(选填):输出指示器,告知模型我们要输出的类型或格式。
只要你按照这个框架写 prompt ,模型返回的结果都不会差。
当然,你在写 prompt 的时候,并不一定要包含所有4个元素,而是可以根据自己的需求排列组合。比如拿前面的几个场景作为例子:
推理:Instruction + Context + Input Data
信息提取:Instruction + Context + Input Data + Output Indicator
在Prompt Framework背景下,为了让LLM有更高质量的回答、对业务有价值的回答。在工程实践中,工程侧会将用户的随意问题进行包装组织以及抽取,组成问题的上下文,并添加一些周边的限定语句,而得到有效提示词的代码逻辑或者应用服务(有效提示词组织服务:能完成这些复杂应用业务的 一般是需要一个专门的服务)。
query有效->产出好的结果是不容易 -> 避免二义性、无结果
所以产生了提示词工程:提示词引擎-runtime(串联产投链路数据) & 模板运维
分离:模板:模板与工程分离 (类似前后端分离)
信息够不够:串联产投链路数据,补齐到模板中
深度学习的演变阶段:在认知科学里,有一个「认知双通道理论」,讲的是人脑有两套系统,即「系统 1」和「系统 2」:
系统 1(System-1)常被称为直觉系统,它的运行是无意识且快速的,不怎么费脑力,没有感觉,完全处于自主控制状态。
系统 2(System-2)常被称为逻辑分析系统,它将注意力转移到需要费脑力的大脑活动上来,例如复杂的运算。系统 2 的运行通常与行为、选择和专注等主观体验相关联。
System-1 是目前深度学习正在做的事情 —— Current DL,比如图像识别、人脸识别、机器翻译、情感分类、语音识别、自动驾驶等。System-2 是未来深度学习将要做的事情 —— Future DL,比如推理、规划等任务,这些任务基本都是有逻辑的(logical)、可推理的(reasoning)。
大语言模型研究者们也在探究那些 System-2 要解决的任务,于是有了下面的几个技术方向。
Google 提出思维链提示(CoT Prompting):2022年初google在论文里面提出「思维链(Chain of Though,CoT)」,研究发现通过在 prompts 中增加思维链(即一系列中间推理步骤),就能显著提升 LLM 的推力表现。并将这种提示方式称为「Chain of Thought prompting」。
标准的提示中给了一对问答样例,再加上一个问题,让 LLM 返回问题的答案。CoT Prompting 则在那对问答样例中加上了一段 CoT,而不是直接给出「The answer is 11.」下图展示了这样两种 prompting 及对应输出的案例。
Let's Think Step by Step
2022 年 5 月三位东京大学学者与两位 Google 的研究人员中提到了后来在 Gen-AI 领域那句著名的提示 —— Let's think step by step —— 对于涉及到逻辑推理方面的问题,通过增加这句提示后,模型展现出了推理性能的大幅跃升。
对于 OpenAI 的 InstructGPT(具体地,是 text-davinci-002)模型,在输入提示时加上「Let's think step by step」后,其表现:
在 MultiArith 数据集上,准确率从 17.7% 提升到 78.7%
在 GSM8K 数据集上,准确率从 10.4% 提升到 40.7%
对于 Google 的 PaLM 模型(具体地,参数规模为 5400 亿),同样的输入提示改造,其表现:
在 MultiArith 数据集上,准确率从 25.5% 提升到 66.1%
在 GSM8K 数据集上,准确率从 12.5% 提升到 43.0%
事实上,还有很多类似的Prompt插入,但是效果不如这句好。
大模型发展与应用
而他们的底座就是大模型(Large Models),大模型在人工智能领域通常指的是具有大量参数的(通常包含十亿甚至千亿参数)、复杂计算结构和强泛化能力的机器学习模型。其主要特点包括:
大量参数:大模型拥有庞大的参数量,通常包含十亿甚至千亿参数,远超过传统的小型模型。使其具备极高的表达能力,能够模拟和学习非常复杂的函数关系。
强大的学习能力:由于参数量巨大,这些模型具有强大的学习和泛化能力,能够在各种任务上达到或超越人类的表现。
大数据集&计算资源密集:为了训练这些模型避免过拟合,并充分利用其学习能力,需要大量的训练数据。且需要大量的计算资源进行训练,包括高性能硬件GPU集群和大量的电力。
预训练和微调:大多数大模型采用两阶段的学习过程,首先在大量的无标注数据上进行预训练,然后在特定任务的数据集上进行微调,以获得更好的性能。
自我监督学习:许多大模型通过自我监督学习来提高其泛化能力,这种学习方法不需要人工标签,而是让模型自己从输入数据中学习到有用的特征。
上下文敏感性:大模型在处理自然语言理解和生成任务时,能考虑到更多的上下文信息,从而生成更加准确和流畅的文本。因此在实践大模型过程中要尽可能输入足够的上下文信息来提高结果的准确度。
产技推进原则:在有强行业属性的需求的方向上坚持投入定制(例如生图、生产决策因子),在偏通用的应用上尽可能快速复用平台产品,底层复杂能力通过集团借力。
策略:业务侧核心聚焦业务场景应用,平台能力&模型不会那么重
目标:构建一套支持多业务场景的AIGC横向工程引擎架构, 辅助业务快速落地AIGC场景。
考虑扩展性、模块化和服务的可重用性,嵌入产供投链路。
采用分层设计,以实现各层次的解耦和服务复用。
嵌入产供投链路:通过API、消息队列、odps回流等实现系统间的数据交换和工作流程的协同。
核心公共能力:多模型接口封装、Prompt管理、标注反馈能力、任务管理能力、多业务身份隔离等。
业务背景
因多语种翻译、商品信息不足等问题导致商品属性缺失、图片素材质量低;导致用户理解难、转化低、万求高。面对极大品量,运营手动仅可补全少量头部商品,无法全量优化。在AI技术成熟的背景下,考虑采用AIGC的方式对商品的属性、卖点、素材图片、场景图等信息进行补全及优化。
核心方案
技术选型核心三步:1、模型底层选择;2、语言&框架选择;3、整体架构设计。
整体参看上篇AIGC工程实践方案。基于大模型生文能力&部署Stable Diffusion生图能力,通过离在线数据接入、配置化设计、异步任务调度等技术链接业务供给数据资产,构建嵌入产供投链路的批量化AIGC工程。
阶段进展
文生文工程:具备prompt模板提示&自动填充、任务试跑预览、费用预估、批量化AIGC生产等能力,简化业务AIGC使用门槛。商品属性补全百万+品。获流效果在主搜免费获流上显著提升(有动销商品/动览非动销品均正向),并且通过商详ab方式验证对成交转化率也有正向提升。
场景图:建设标品场景图替换、白底图&透明图生产、透明图超分处理、模特服饰上身、图片连通域检测、图片转存、图片裁剪等二创。图素材生产万+,首猜获流效率&主搜曝光点击率均为正向。
另外我们初探构建具备业务知识的AI办公助手。服务于商家,提升运营效率和业务体验。不仅解放了业务小二的工作量,也提升了业务操作的效率和准确性。
实践过程挑战
在AIGC的实践,技术挑战与机遇并存。下面给大家分享下AIGC的实践挑战以及部分解决思路。
问题 | 描述 | 解决方案及思路 |
知识量有限 |
| 方案1. LLM+检索增强 :LLM的基础上通过检索等额外提供领域数据信息;
方案2. 构建行业数据集对LLM进行微调,使模型本身具备输出行业信息的能力。(成本高且效果不佳) 【解决方案】:LLM+检索增强:OpenAI提出了chatgpt-retrieval-plugin、WebGPT,开源社区提出了DocsGPT、ChatPDF、基于langchain的检索增强chatbot等等一系列解决方案 |
效果问题 |
| 1、大模型+上下文学习技术(In-Context Learning), 设计合理的prompt模版 2、大模型+思维链提示(Chain-of-Thought Prompting),引入推理路径作为提示,激发大模型按照这种推理的模式生成出合理的结果 3、大模型+高质量标注样本+指令微调(PEFT技术),提高模型对特定任务的泛化能力 |
延迟问题 |
| 1、流式传输。请求中的设置stream: true使模型在令牌可用时立即开始返回令牌,而不是等待生成完整的令牌序列。它不会改变获取所有令牌的时间,但它会减少我们想要显示部分进度或将停止生成的应用程序的第一个令牌的时间。这可以是更好的用户体验和 UX 改进,因此值得尝试流式传输。 2、基础设施。openai 美国。存在跨国网络延时 3、减小token 。例如使用更短的提示。
4、缓存:通过存储经常访问的数据,可以缩短响应时间,而无需重复调用 API。但在添加新信息时使缓存无效。 |
资源和性能 |
| 1、不训练基座模型,微调选择的基座模型选几B~几十B左右的LLM (如ChatGLM-6B) 2、曲线救国,线上不直接使用大模型serving,一种是利用大模型的embedding, 另一种是利用大模型来进行更多样本标注,来辅助小模型学习 |
业务在AIGC应用更多是批量化生产,去快速辅助业务补全海量商量素材质量低的问题。不同于交互式生成方式,批量化生成中面临很多问题,其中最为突出的是原商品图的质量,以及原商品图和背景模板的匹配问题:
1、商品素材图:主体清晰度低、布局混乱;这对于最终用户的购买体验有极大的负面影响。
技术解决方案:采用超分辨率技术,特别是real-esrgan方法(ESRGAN做生成网络,Unet做判别网络)最终将合成图扩展到1000*1000分辨率,以满足高质量的输出需要。
2、商品素材的布局混乱,包括物品位置不当、画面过于杂乱,使得生成的图片达不到预期要求。
技术解决方案:通过主体识别以及联通域检测技术,对商品主体结构分布进行筛选,预剔除不符合规范的商品图片,从而优化图片的布局和整体美观度。
3、由于缺乏标准化样本进行模型训练,商品图与背景模板的匹配问题成为了批量化生成的一大挑战。
技术解决方案:精选背景模板:通过细分类目,结合人工评测批量化产出生成图后,剔除采纳率较低的背景图模板,以提高背景的适配性和美观度。
以及特别是C端投放场景,需要建立审核->验收->效果等业务SOP流程,提高生产投放的效率和质量。
随着大模型在AIGC中的广泛应用,它们引发了关于数据隐私、版权、内容监管和偏见等问题的讨论。因此,大模型的使用不仅涉及技术层面,还涉及伦理和法律层面。如政治敏感、违法犯罪、身体伤害、心理健康、隐私财产、偏见歧视、礼貌文明、伦理道德等问题,尤其是LLM直接面向C短消费者服务时,由于消费者的输入不可控,模型有概率得到一些不合规的返回。
问题 | 描述 | 解决方案及思路 |
安全与合规 | 如政治敏感、违法犯罪、伦理道德等问题,尤其是LLM直接面向C端场景 | 1、建设安全校验模块能力 2、B端:生成素材数据清洗&人工审核 3、C端:生成式大模型必须通过SFT、RLHF等微调技术对大模型做适配微调,对齐人类的价值观; |
政策问题 | 对于类GPT能力作为C端应用的开放程度需受限于政策 | 1、上线前,找安全同学评估 |
【附】网信办411公布《生成式人工智能服务管理办法》征求意见稿,规范生成式人工智能产品(AIGC,如 ChatGPT)的开发和使用方式、行业的定义、对生产者的要求和责任等方面。意见稿中尤其提出:“利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。
C端应用上线需要过“双新评估”:
未来展望
面对下一年度,AIGC实践的未来展望应基于业务场景继续创新,扩大战果。
深入探索行业应用:结合不同行业的特点和需求,开发出更加定制化、精细化的AIGC应用,提高生产效率和质量。加强与业务场景的深度融合,推动AIGC技术在业务侧的实际落地。
提高模型性能:与算法联动,结合实际应用场景的需求,通过人工、算法、数据反馈等机制不断优化业务场景微调模型,提高模型的性能和准确性,让AIGC应用更加高效化。
探索多模态AIGC应用,如将文本&图像二创、视频等多模态的生成能力结合。
AI大势浩浩荡荡,顺之者昌逆之者亡。YY几个未来的期待场景:
1、增强的交互式AI:类似google发布的Gemini,改变当前信息交互方式,期待每个人都有专属钢铁侠中的人工智能“贾维斯”。
2、个性化和定制化内容:大数据+AIGC根据用户偏好、历史行为和实时反馈生成的个性化和定制化内容。
3、虚拟现实内容:AIGC多模态内容生成发展,图像、视频、音频等,未来说不定AI构建虚拟现实内容。
结语
积极拥抱变化,拒绝无谓焦虑。AI技术发展更多地是对人类能力的补充而非替代,更多作为“助理”的效果。
在人工智能飞速发展的今天,我们正站在这个时代的十字路口,AI的进步为我们揭开了技术创新的新篇章,提供了前所未有的便利和机遇;另一方面,技术的飞跃发展也带来人们对未来工作和生活方式的不确定性,引发了人们心中的焦虑和恐惧。
前总理:“中国有6亿人月收入不到1千”。最广大的用户可能并没有感受到GPT的日新月异的变化。持续学习与适应是关键,不断学习新知识,提升对AI技术的理解和掌握。唯有接纳和理解AI技术的进步,我们才能把握发展的机遇。通过深入了解AI技术的实际应用,我们可以发现,技术的发展更多地是对人类能力的补充而非替代。
参考资料
Massive Exploration of Neural Machine Translation Architectures:
https://arxiv.org/pdf/1703.03906.pdf
Safety-Prompts:
https://github.com/thu-coai/Safety-Prompts
团队介绍
天猫国际,中国进口电商领域的领航者,不仅是阿里巴巴-淘天集团电商技术体系中的佼石,更是集平台运营、跨境贸易、大贸业务、免税服务于一体的综合性业务旗舰。我们的技术产品覆盖了从商家入驻到消费者体验的每一个环节,构成了电商链路上最为丰富和复杂的生态系统。我们对电商行业的特性和发展趋势有着深入的认知。同时,我们也密切关注着跨境市场的动态和未来的交易趋势,以期提前布局,引领行业发展。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-10-06
Multi-Agent架构:探索AI协作的新纪元
2024-10-06
AI大模型:你不得不知道的两个致命缺陷
2024-10-05
2024年OpenAI DevDay发布实时 API、提示缓存等新功能
2024-10-05
LLM Agent的构成、技术与挑战
2024-10-05
OpenAI重磅发布Canvas:跟ChatGPT一起写作编程
2024-10-05
OpenAI爆料!GPT-5参数将达17万亿,GPT-6规模增加百倍
2024-10-02
Sam Altman回顾OpenAI 开发者日:AGI之路更清晰了
2024-10-02
ChatGPT实时语音将于本周向免费用户推出:OpenAI DevDay 2024详细解读
2024-03-30
2024-07-18
2024-04-26
2024-05-06
2024-04-11
2024-06-12
2024-07-09
2024-05-09
2024-07-25
2024-08-21