【LLM基础知识】LLMs-Tokenizer知识总结笔记v2.0
本文是关于LLMs-Tokenizer的基础知识总结,主要介绍了Tokenizer的三种方法:基于词(word)、基于字符(char)和基于子词(subword)的分词。特别强调了subword分词算法中的BPE(BBPE)、WordPiece和ULM,以及分词工具SentencePiece。文章还对比了这三种分词方法的优缺点,指出基于subword的分词方式在词表大小和语义表达上取得了较好的平衡。
发布日期:
2024-08-06 21:47:16