支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI新手村:LLM

发布日期:2025-06-13 18:12:41 浏览次数: 1533
作者:小数据不简单

微信搜一搜,关注“小数据不简单”

推荐语

探索LLM如何从技术突破到产品落地,揭开大语言模型的神秘面纱。

核心内容:
1. LLM的技术演进:从RNN到Transformer的突破
2. 主流大模型对比:BERT、GPT等架构特点解析
3. LLM应用实践:产品封装与API调用示例

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

近两年当人们谈起 LLM 的时候,似乎已经和 AI 画上了等号,但是 LLM 其实只是 AI 领域的一个重要组成部分。

LLM的历史

自然语言处理(NLP)是人工智能领域一个重要分支,它主要研究内容和方向有:分词(Tokenization)、文本分类(Text Classification)、情感分析(Sentiment Analysis)、实体命名(Named Entity Recognition)、文本摘要(Topic Modeling)。上面所有这些研究方向底层的技术基础都是从 RNN 神经网络发展而来,在此基础上又产生了基于encoder-decoder 结构的Seq2seq 模型。

然而,RNN 在处理长文本时存在固有的缺陷:它会逐步计算每个词元(token)之间的依赖关系,这不仅会导致长文本信息丢失或遗忘,而且每一步计算都必须顺序进行,无法实现并行运算。

2017 年 Google 发布了 Transformer 架构,Transformer 是一种基于自注意力机制的神经网络架构,它的目标是处理序列资料,特别擅长处理长距离的元素依赖相关性,而且可以并行运算。Transformer 由两部分组成:编码器(encoder)和解码器(decoder),其结构无疑借鉴了 Seq2seq 模型,并成功克服了 RNN 的内在缺点。 以 Transformer 架构为基础,各家公司开始开发自家的模型。2018年当时最火的还是Google 的 BERT模型,BERT模型其实是一个理解式的模型,而 OpenAI 的 GPT是一个生成式的模型,使用的是 decode-only 的结构。其他的语言模型大多数采用的是编码器加解码器这种方式,编码器负责理解,解码器负责输出。 2022 年OpenAI 推出的 GPT3模型,其中的参数量达到了千亿级别,而且实际的测试效果碾压当时市面上的所有模型,真正实现了“大力出奇迹”,大语言模型(LLM) 的时代来临了。 随后,Meta 推出了 LLaMA 系列,Google 发布了 Gemini 系列,国内的深度求索推出了 DeepSeek 系列,阿里巴巴也推出了 Qwen 系列。一时间,各类大型语言模型百花齐放,共同推动着 AI 领域的飞速发展。

LLM的使用

在 LLM 的基础上,许多产品得以封装并广泛应用。其中,ChatGPT是最广为人知的产品之一,国内也有豆包、通义千问、文心一言等同类产品。除了通过产品界面直接使用 LLM,我们还可以通过代码的方式灵活调用 LLM。

以下是使用 GPT-3.5-turbo 模型和 DeepSeek-R1 模型的代码示例:

from langchain_openai import ChatOpenAI
from langchain_core.messages import SystemMessage, HumanMessage

llm = ChatOpenAI(
    api_key=env_settings.OPENAI_API_KEY,
    model_name="gpt-3.5-turbo",
    base_url='https://burn.hair/v1'
)

ai_message = llm.invoke([
    SystemMessage(content="please speak in chinese"),
    HumanMessage(content="hello"),
])

print(ai_message.content)
#输出:你好!有什么可以帮助你的吗?
from langchain_core.messages import SystemMessage, HumanMessage
from langchain_deepseek import ChatDeepSeek

llm = ChatDeepSeek(
    api_key=env_settings.DS_API_KEY,
    model="deepseek-ai/DeepSeek-R1",
    temperature=0,
    max_tokens=None,
    timeout=None,
    max_retries=2,
    api_base='https://api.siliconflow.cn'
)
ai_message = llm.invoke([
    SystemMessage(content="please speak in chinese"),
    HumanMessage(content="hello"),
])

print(ai_message.content)
# 你好!? 有什么可以帮您的吗?

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询