我要投稿

学大语言模型必须要弄懂的它-Tokenizer

发布日期：2024-05-06 17:54:58 浏览次数： 3727

作者：河指令

微信搜一搜，关注“河指令”

Tokenizer 是自然语言处理中常用的工具，用于将文本数据转换为模型能够理解的输入形式。它的主要作用是将输入的文本分割成单词、子词或者字符，并将它们映射到对应的编号（或者词向量）上。

在深度学习中，文本数据通常需要转换成数值形式才能被神经网络处理，以下我们通过三个步骤，去了解Tokenizer底层原理的实现

1.准备数据

2.为数据进行标记

3.构建一个Tokenizer数据预处理工具

一、准备数据

先加载我们准备好的the-verdict.txt 英文文本，用英文内容主要是英文单词之间可以通过空格或标点符号就可以分割了，词汇量较少，单词之间的边界清晰，准确率高。中文词汇之间没有明显的分割符，而且还需要考虑上下文的语义关系，处理起来相对复杂，不方便我们开始的学习。

下面代码中我们主要是要对文本进行分割，按空格，逗号、句号等特殊符号分割

import re

with open("the-verdict.txt", "r", encoding="utf-8") as f:
    raw_text = f.read()

print("文本的大小:", len(raw_text))
print("查看开头的20个字符为:", raw_text[:20])

preprocessed = re.split(r'([,.?_!"()\']|--|\s)', raw_text)
preprocessed = [item.strip() for item in preprocessed if item.strip()]
print(preprocessed[:20])

文本的大小: 20479
查看开头的20个字符为: I HAD always thought

['I', 'HAD', 'always', 'thought', 'Jack', 'Gisburn', 'rather', 'a', 'cheap', 'genius', '--', 'though', 'a', 'good', 'fellow', 'enough', '--', 'so', 'it', 'was']

二、为数据进行标记

接着对数据进行去重和排序，目的是构建一个词典，所以不需要重复的数据，通过单词，我们可以查到对应的单词索引。

all_words = sorted(list(set(preprocessed)))

# 构建一个词典表，用json来表示，key为单词，value为索引
vocab = {token:integer for integer,token in enumerate(all_words)}

for i, item in enumerate(vocab.items()):
    print(item)
    if i >= 20:
        break

输出的结果可以看到，排在前面的都是特殊字符，接着是我们切割好的单词，按字母进行排序

('!', 0)
('"', 1)
("'", 2)
('(', 3)
(')', 4)
(',', 5)
('--', 6)
('.', 7)
(':', 8)
(';', 9)
('?', 10)
('A', 11)
('Ah', 12)
('Among', 13)
('And', 14)
('Are', 15)
('Arrt', 16)
('As', 17)
('At', 18)
('Be', 19)
('Begin', 20)

三、构建一个Tokenizer数据预处理工具

现在我们要专门一个类来处理文本数据，主要两个功能，通过单词，可以找到对应的标记，通过标记可以找到对应的索引。

以下是我们工具的内容，虽然简单，但是包含的分词两个核心点，文本的编码和解码。

class TokenizerV1:
    
    # 对词表进行初始化，并创建两个变量，str_to_int为单词映射为数字
    # int_to_str为数字映射单词
    def __init__(self, vocab):
        self.str_to_int = vocab
        self.int_to_str = {i:s for s,i in vocab.items()}
    
    # 通过单词找到对应的数字标记
    def encode(self, text):
        preprocessed = re.split(r'([,.?_!"()\']|--|\s)', text)
        preprocessed = [item.strip() for item in preprocessed if item.strip()]
        ids = [self.str_to_int[s] for s in preprocessed]
        return ids
    
    # 通过数字标记找到对应的单词
    def decode(self, ids):
        text = " ".join([self.int_to_str[i] for i in ids])
        text = re.sub(r'\s+([,.?!"()\'])', r'\1', text)
        return text

TokenizerV1初始化，参数为我们的单词词典，并对一段句子进行单词转数字、数字转单词。

tokenizer = TokenizerV1(vocab)

text = """"Why _has_ he chucked painting?" I asked abruptly"""
ids = tokenizer.encode(text)
print(ids)

decodeText = tokenizer.decode(tokenizer.encode(text))
print(decodeText)

输出结果

[1, 115, 118, 537, 118, 541, 268, 766, 10, 1, 55, 184, 125]

" Why _ has _ he chucked painting?" I asked abruptly

我们已经有了文本处理工具了-TokenizerV1，但是它还不够完善，如果我们要查找一个在该文本词典没有的单词，就会出现错误。

要处理这种情况的话，我们要添加特殊的上下文标记，大家可以发散下思想，不同的文本处理，有他们特殊的文本处理方式，有兴趣的话可以多去了解其他库的一些分词处理。

在这里<|endoftext|>意思是为结束的句子增加结束标记。这通常用于连接多个不相关的文本或句子

<|unk|> 意思为未知单词的标记，如果该单词如果在字段中没有，那么我们就把他标记为<|unk|>

preprocessed = re.split(r'([,.?_!"()\']|--|\s)', raw_text)
preprocessed = [item.strip() for item in preprocessed if item.strip()]

all_tokens = sorted(list(set(preprocessed)))
# 在词典的最后增加两个特殊的标记
all_tokens.extend(["<|endoftext|>", "<|unk|>"])

vocab = {token:integer for integer,token in enumerate(all_tokens)}

for i, item in enumerate(list(vocab.items())[-5:]):
    print(item)

可以看到我们在词典的最后增加了对应的特殊标记

('younger', 1156)
('your', 1157)
('yourself', 1158)
('<|endoftext|>', 1159)
('<|unk|>', 1160)

我们重新完善下之前写的工具类

class TokenizerV2:
    def __init__(self, vocab):
        self.str_to_int = vocab
        self.int_to_str = { i:s for s,i in vocab.items()}
    
    def encode(self, text):
        preprocessed = re.split(r'([,.?_!"()\']|--|\s)', text)
        preprocessed = [item.strip() for item in preprocessed if item.strip()]
        # 增加了未知单词标记判断
        preprocessed = [item if item in self.str_to_int 
                        else "<|unk|>" for item in preprocessed]

        ids = [self.str_to_int[s] for s in preprocessed]
        return ids
        
    def decode(self, ids):
        text = " ".join([self.int_to_str[i] for i in ids])
        # Replace spaces before the specified punctuations
        text = re.sub(r'\s+([,.?!"()\'])', r'\1', text)
        return text

再调用工具看看效果，对文本内容进行编码，我们在拼接句子时，在第一个句子后面增加的一个结束的特殊标记

tokenizer = TokenizerV2(vocab)

text1 = "Hello, do you like tea?"
text2 = "In the sunlit terraces of the palace."

text = " <|endoftext|> ".join((text1, text2))

print(text)

encodeText = tokenizer.encode(text)
print(encodeText)

以下是输出的结果，找找看下特殊标记的数字是多少？

好了，本文主要介绍了文本的数据处理，并编写了一个词汇表文本处理工具TokenizerV2，同时我们实现了通过字符查找标记数字，通过数字查找字符，这两个方法是数据预处理的核心，我们想学习大语言模型，是绕不开它的。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

全新AI编程工具 Google Antigravity 实测，特别适合产品经理

2025-11-19

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

OpenAI Codex 实用技巧介绍

2025-11-14

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

2025-12-22

大家都在问

Clawdbot 如何实现像人一样的长期记忆？

2026-02-05

本体论思想-抽象建模的本质是什么？

2026-02-05

Prompt 的本质是“思维压缩包”：如何从结果中反推创作者的认知模型？

2026-02-05

当AI能替你干活，什么能力决定你不可替代？

2026-02-05

Claude Cowork 真能替换 RAG ？

2026-02-04

谁动了我的电脑？谁应该抱怨？

2026-02-04

OpenClaw之后，我们离能规模化落地的Agent还差什么？

2026-02-03

使用 Agent Skills 做知识库检索，能比传统 RAG 效果更好吗？

2026-02-03

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean