我要投稿

一文搞懂大模型的分词器（Tokenizer）

发布日期：2025-05-22 03:13:45 浏览次数： 2009

作者：架构师带你玩转AI

微信搜一搜，关注“架构师带你玩转AI”

今天来聊一聊BERT和GPT的分词器，了解大模型的第一步：Tokenizer。

Tokenizer（分词器）是大语言模型（如BERT和GPT）预处理文本的核心组件，其作用是将原始文本拆解为子词、单词或字符，同时保留语义和结构信息。

BERT vs GPT

一、BERT（WordPiece）

BERT的Tokenizer：基于WordPiece的子词分词

一、分词工作原理：

BERT使用WordPiece算法生成子词（subword）单元，通过贪心算法迭代合并语料中高频出现的字符对，平衡词汇表大小与OOV（未登录词）问题。

BERT将特殊标记预置在输入序列中，通过结构化标记引导模型理解任务目标与上下文边界。

[CLS]：表示序列的起始位置，常用于分类任务。

[SEP]：分隔不同句子或段落。

例如，Input 'my dog is cute. he likes playing' 分词为：

'[CLS]'、'my'、'dog'、'is'、'cute'、'[SEP]'、'he'、'likes'、'play'、'##ing'（“##”表示子词延续）和'[SEP]'。

二、专业术语：

忽略：WordPiece算法、贪心算法、OOV问题。

关注：Token（词元）、Tokenizer（分词）、Subword（子词）、Tag（标记）

三、存在问题：

（1）中文适配性差
BERT 原始 Tokenizer 依赖空格分词（如英文），对中文等无显式空格的语言需额外分词预处理。
（2）难以适应动态任务
[CLS]、[SEP] 等特殊标记的语义和位置固定，难以适应动态任务需求（如可变长度的分类任务、多轮对话）。

二、GPT（BPE）

GPT的Tokenizer：基于BPE的子词分词

GPT（尤其是GPT-2/3）使用BPE算法，通过合并高频字节对生成子词，与WordPiece不同，BPE更注重频率统计。同时GPT-2采用字节级BPE，支持多语言输入（如中文、代码）而无需额外预处理。

二、专业术语：

忽略：BPE算法、频率统计、字节级BPE。

关注：Token（词元）、Tokenizer（分词）、Subword（子词）

Byte Pair Encoding: building the GPT tokenizer with Karpathy -

三、BPE和WordPiece两者差异：

（1）符号标记

BPE：无特殊标记，直接合并高频子词（如happy）。
WordPiece：依赖##标记后缀（如##ness），拆分规则更严格。
（2）跨语言能力（中英文）
BPE：通过字节级编码统一处理多语言（如pneu+monia）。
WordPiece：需预分词（如中文按字拆分），跨语言泛化性弱。
（3）适用场景
BPE：生成任务（GPT）、多语言混合、非规范文本WordPiece。
WordPiece：理解任务（BERT）、短文本分类、精准语义解析。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-08-22

4个维度精准判断：你的业务到底需不需要AI？

2025-08-22

B 站大模型存储加速实践

2025-08-22

RAG 真是一个特别糟糕的概念

2025-08-22

深度智能体革命：为什么 LLM 应用正从浅层走向深度？

2025-08-22

万字长文预警？不，关于MCP，看这篇就够了

2025-08-22

浅谈大模型在安全运营中的落地

2025-08-22

浅谈大模型在威胁分析的落地上篇

2025-08-22

大模型工具的 “京东答案”

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

2025-08-21

DeepSeek R1-0528 小版本升级

2025-05-29

SpringAI Alibaba实战文生图、聊天记忆功能

2025-06-01

精|知识探索新范式：深度研究Deep Research智能体全面综述，系统、方法与应用

2025-06-21

AIGC合规落地全景图 | 如何做好AIGC数据合规

2025-06-07

DeepSeek V3.1 测评

2025-08-19

别再被MCP协议绕晕！一文搞懂连接流程与核心架构

2025-06-12

能办成事的 Agent：实时与环境交互，从经验中学习

2025-06-19

聊聊AI应用架构演进

2025-06-13

这篇AI Agent漫游指南，带你建立全面的科技史观

2025-05-28

大家都在问

4个维度精准判断：你的业务到底需不需要AI？

2025-08-22

深度智能体革命：为什么 LLM 应用正从浅层走向深度？

2025-08-22

GenAI企业应用落地，成功率 5%？

2025-08-22

DeepSeekV3.1 提到的 UE8M0 FP8 Scale 是什么？下一代国产芯片设计？

2025-08-21

从Prompt到Context：为什么Think Tool是形式化的必然？

2025-08-20

字节跳动发布M3-Agent：当AI拥有了“记忆”，世界将如何被重塑？

2025-08-19

大模型下半场，腾讯手里还有哪“三张牌”？

2025-08-19

AI应用从“工具”到“工作流”，下一个引爆点在多智能体系统？

2025-08-18

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部