我要投稿

AI新手村：LLM

发布日期：2025-06-13 18:12:41 浏览次数： 1750

作者：小数据不简单

微信搜一搜，关注“小数据不简单”

近两年当人们谈起 LLM 的时候，似乎已经和 AI 画上了等号，但是 LLM 其实只是 AI 领域的一个重要组成部分。

LLM的历史

自然语言处理（NLP）是人工智能领域一个重要分支，它主要研究内容和方向有：分词（Tokenization）、文本分类（Text Classification）、情感分析（Sentiment Analysis）、实体命名（Named Entity Recognition）、文本摘要（Topic Modeling）。上面所有这些研究方向底层的技术基础都是从 RNN 神经网络发展而来，在此基础上又产生了基于encoder-decoder 结构的Seq2seq 模型。

然而，RNN 在处理长文本时存在固有的缺陷：它会逐步计算每个词元（token）之间的依赖关系，这不仅会导致长文本信息丢失或遗忘，而且每一步计算都必须顺序进行，无法实现并行运算。

2017 年 Google 发布了 Transformer 架构，Transformer 是一种基于自注意力机制的神经网络架构，它的目标是处理序列资料，特别擅长处理长距离的元素依赖相关性，而且可以并行运算。Transformer 由两部分组成：编码器（encoder）和解码器（decoder）,其结构无疑借鉴了 Seq2seq 模型，并成功克服了 RNN 的内在缺点。以 Transformer 架构为基础，各家公司开始开发自家的模型。2018年当时最火的还是Google 的 BERT模型，BERT模型其实是一个理解式的模型，而 OpenAI 的 GPT是一个生成式的模型，使用的是 decode-only 的结构。其他的语言模型大多数采用的是编码器加解码器这种方式，编码器负责理解，解码器负责输出。 2022 年OpenAI 推出的 GPT3模型，其中的参数量达到了千亿级别，而且实际的测试效果碾压当时市面上的所有模型，真正实现了“大力出奇迹”，大语言模型（LLM）的时代来临了。随后，Meta 推出了 LLaMA 系列，Google 发布了 Gemini 系列，国内的深度求索推出了 DeepSeek 系列，阿里巴巴也推出了 Qwen 系列。一时间，各类大型语言模型百花齐放，共同推动着 AI 领域的飞速发展。

LLM的使用

在 LLM 的基础上，许多产品得以封装并广泛应用。其中，ChatGPT是最广为人知的产品之一，国内也有豆包、通义千问、文心一言等同类产品。除了通过产品界面直接使用 LLM，我们还可以通过代码的方式灵活调用 LLM。

以下是使用 GPT-3.5-turbo 模型和 DeepSeek-R1 模型的代码示例：

from langchain_openai import ChatOpenAI
from langchain_core.messages import SystemMessage, HumanMessage

llm = ChatOpenAI(
    api_key=env_settings.OPENAI_API_KEY,
    model_name="gpt-3.5-turbo",
    base_url='https://burn.hair/v1'
)

ai_message = llm.invoke([
    SystemMessage(content="please speak in chinese"),
    HumanMessage(content="hello"),
])

print(ai_message.content)
#输出：你好！有什么可以帮助你的吗？

from langchain_core.messages import SystemMessage, HumanMessage
from langchain_deepseek import ChatDeepSeek

llm = ChatDeepSeek(
    api_key=env_settings.DS_API_KEY,
    model="deepseek-ai/DeepSeek-R1",
    temperature=0,
    max_tokens=None,
    timeout=None,
    max_retries=2,
    api_base='https://api.siliconflow.cn'
)
ai_message = llm.invoke([
    SystemMessage(content="please speak in chinese"),
    HumanMessage(content="hello"),
])

print(ai_message.content)
# 你好！? 有什么可以帮您的吗？