LLMs分词避坑！省10小时→效率飙升200%！

对于我们这些深耕跨境行业的实战派来说，大语言模型（LLMs）已经成为提升效率的利器，无论是生成营销文案、智能客服还是多语言翻译，都离不开它。但您是否深入思考过，这些智能背后，文本是如何被机器“理解”的？今天，我们就来深度剖析一个核心技术——分词（Tokenization），它是LLMs处理文本的基础，也是我们应用AI时必须了解的关键环节。

理解分词，能让您在应用LLMs时更得心应手，避免踩坑，更好地驾驭AI的力量。新媒网跨境获悉，掌握这些底层逻辑，是成为真正“懂行”专家的必修课。

到底什么是分词？

简单来说，分词就是把一段完整的文本，拆分成更小的、机器可以识别和处理的“小块儿”，这些小块儿我们就叫它们“词元”（Tokens）。而负责完成这项任务的工具或算法，就是“分词器”（Tokenizer）。

这些词元可以是单个的字符，也可以是独立的词语，甚至是词语内部的更小单元——子词（Subword）。我们接下来会逐一揭开它们的神秘面纱。

我们为什么要进行分词？

您可能会问，直接把整段文字喂给机器不行吗？不行！因为未经结构化的原始文本，对机器来说就像一团乱麻。

让机器“读懂”： 把文本拆分成一个个独立的词元，并给每个独特的词元赋予一个数值，机器就能像我们数数一样，对文本内容有了具象的“认知”，从而进行计算和理解。
提升处理速度： 现今LLMs的基础架构是Transformer模型，它能对文本中的所有词元进行并行处理。想象一下，如果把一本书的内容拆成一页页同时阅读，速度是不是快多了？分词就是实现了这种“并行阅读”，大大提高了处理效率。
捕获上下文语境： 分词后，模型还会结合“位置嵌入”（Positional Embeddings）来理解词元在文本中的顺序。这至关重要，因为一个词语在不同语境下，意思可能天差地别。比如“苹果”可以指水果，也可以指公司。模型需要通过上下文来准确把握其含义。

不同的分词技术

既然分词这么重要，那具体有哪些方法呢？别急，我们一步步来学习。

1. 字符分词

顾名思义，这种方法就是把文本拆分成单个字符。在很多编程语言里，字符串本身就是字符的集合，所以实现起来非常简单。

text = "Sample text for tokenization!"
tokens = list(text)
print(tokens)

输出结果：

['S', 'a', 'm', 'p', 'l', 'e', ' ', 't', 'e', 'x', 't', ' ','f', 'o', 'r',' ', 't', 'o', 'k', 'e', 'n', 'i', 'z', 'a','t', 'i', 'o', 'n', '!']

实战洞察： 这种方法虽然简单，但局限性很大。模型看到的只是一个个孤立的字符，上下文信息非常稀薄。比如“t”这个字符，它可能出现在无数个词里，模型很难仅仅通过“t”及其相邻的几个字符来理解它在当前词语甚至句子里代表的含义。这就好比“只见树木不见森林”，信息量太少了。

2. 词语分词

这种技术以空格或其他分隔符为界，将文本拆分成独立的词语，通常会忽略掉空格本身。

tokens = text.split()
print(tokens)

输出结果：

['Sample', 'text', 'for', 'tokenization!']

实战洞察： 相较于字符分词，词语分词显然更进了一步，因为它提供了更丰富的上下文信息。一个词语的意义比单个字符要明确得多。然而，它也并非完美。比如上面的例子，“tokenization!”这个词，感叹号被粘连在了词语后面。但在实际应用中，“!”本身就带有强烈的情感或强调意义，将其与词语分开处理，能让模型更好地理解句子的语气和情感。

因此，通常我们会额外进行一步处理：将所有的标点符号也单独拆分成词元。

比如，经过处理后，'tokenization!'会变成'tokenization'和'!'两个词元，这样模型就能更精准地捕捉到标点符号带来的额外信息。

3. 子词分词

子词分词是当前LLMs中非常流行且高效的一种技术。它的核心思想是，对于一个词语，我们不一定将其视为一个整体，而是可以进一步拆分成更小的、有意义的子单元。这些子单元可能是一些频繁出现的词根、前缀、后缀，或是罕见词语中的常见部分。

其中最著名的算法之一是“WordPiece”。我们通过一个实际例子来感受它的魅力。以我们熟悉的DistilBERT模型为例，它就使用了基于WordPiece的分词器：

from transformers import DistilBertTokenizer

model = "distilbert-base-uncased"
tokenizer = DistilBertTokenizer.from_pretrained(model)

encoded_text = tokenizer(text)
tokens = tokenizer.convert_ids_to_tokens(encoded_text.input_ids)
print(tokens)

输出结果：

['[CLS]', 'sample', 'text', 'for', 'token', '##ization', '!', '[SEP]']

实战洞察： 您看，原先的“tokenization”被拆分成了“token”和“##ization”两个词元。这是因为“token”是一个相对独立的、意义明确的词根，而“ization”则是一个常见的后缀，它能与很多词根结合形成新词（例如“realization”，“organization”等），并且本身也带有“化”的含义。通过这种拆分，模型既能识别出“token”的基本意义，又能通过“##ization”理解其“变化、过程”的后缀含义，而且大大减少了词汇表的大小，提高了对未知词（OOV, Out-Of-Vocabulary）的处理能力。这里的“##”表示它是一个后缀，需要连接到前面的词元。

另外，您可能还注意到句子的开头和结尾多了'[CLS]'和'[SEP]'两个特殊词元。它们就像是句子的“开始”和“结束”路标，帮助模型更好地识别和处理整段文本的边界，这对于模型的理解和任务执行都非常有帮助。

4. 字节对编码（Byte-Pair Encoding, BPE）

BPE算法是一种非常巧妙的分词方法，它最初是用于数据压缩的。

预处理： BPE首先会对文本进行预分词，将文本拆分成独立的词语，并统计每个词语的出现频率。
例如：("hug", 10), ("pug", 5), ("pun", 12), ("bun", 4), ("hugs", 5)
构建基础词汇表： 算法会从所有独特的字符中创建一个基础词汇表，比如：["b", "g", "h", "n", "p", "s", "u"]。
合并高频字符对： 接着，BPE会迭代寻找文本中出现频率最高的连续字符对，并将它们合并成一个新的词元，同时更新词汇表和文本。
比如，把每个词语拆开：("h" "u" "g", 10), ("p" "u" "g", 5), ("p" "u" "n", 12), ("b" "u" "n", 4),("h" "u" "g" "s", 5)
观察发现，“u”和“g”组成的"ug"出现频率最高（10+5+5=20次），于是将它们合并："ug"被添加到词汇表。
文本更新为：("h" "ug", 10), ("p" "ug", 5), ("p" "u" "n", 12), ("b" "u" "n", 4),("h" "ug" "s", 5)
这个合并过程会一直重复，直到达到预设的词汇表大小或不再有符合条件的合并。
最终形成的词汇表，就可以用来对任何新文本进行分词了。

实战洞察： BPE的一个潜在问题是，如果遇到词汇表中从未出现过的字符，它可能会将其标记为<unk>（未知）。例如，如果“m”不在基础词汇表里，那么“mugs”可能会被分词为['<unk>', 'ug', 's']。

为了解决这个问题，GPT-2等模型采用了“字节级BPE”（Byte-level BPE）。它不以Unicode字符为基础词汇表，而是直接以256个字节为基础。这样，任何可能的字符（无论稀有与否）都可以通过字节序列来表示，从而避免了未知词元的问题，提高了模型的鲁棒性。

5. Unigram分词

与BPE从零开始构建词汇表不同，Unigram算法采取了“大进小出”的策略。它一开始就初始化一个非常大的词汇表，然后在训练过程中逐步“修剪”这个词汇表。

实战洞察： 在每一步训练中，模型会计算当前词汇表在训练数据上的“损失”，根据这个损失来决定哪些词元应该保留，哪些应该被淘汰。这个过程会不断重复，直到词汇表达到预设的理想大小。Unigram方法的一个优点是它能确保所有基础字符都被保留，从而保证任何词语都能被分词，避免了BPE可能出现的未知词元问题。

主流分词器库

了解了分词技术，我们再看看市面上常用的分词器库，它们是实现这些技术的利器。

1. SentencePiece

SentencePiece是谷歌开发的一个通用分词库。它支持Unigram、BPE、词语和字符等多种分词方法，默认通常使用Unigram。

实战洞察： SentencePiece的一个独特之处在于，它会将空格也纳入分词考虑，用一个特殊的“_”符号来表示。这有助于模型更精确地处理文本中的空格信息，尤其是在一些对空格敏感的语言中。

我们用预训练的BPE模型来演示SentencePiece：

import sentencepiece as spm

sp = spm.SentencePieceProcessor()
sp.load('en.wiki.bpe.vs1000.model')

tokens = sp.encode_as_pieces(text)
print(tokens)

输出结果：

[' ', 'S', 'amp', 'le', ' te', 'x', 't', ' for', ' to', 'k', 'en', 'iz','ation', '!']

2. TikToken

TikToken是OpenAI开发的一个开源分词库，它也是一个快速的BPE分词器，专门为GPT系列模型（如GPT-4等）量身定制。

实战洞察： 由于它高度优化，专为特定模型服务，因此在处理GPT模型相关任务时，TikToken通常比其他通用BPE分词器速度更快，效率更高。新媒网跨境了解到，如果您正在使用OpenAI的API或自建基于GPT架构的LLM应用，TikToken无疑是您的首选。

LLMs分词的挑战与风险前瞻

分词并非万无一失，它也面临着一些挑战，其中一个比较“玄学”但又确实存在的问题是“故障词元”（Glitch Tokens）。

故障词元指的是那些当输入到大多数大语言模型时，会导致模型给出异常输出的词元，例如“SolidGoldMagikarp”、“attRot”、“ysics”等。这些词元就像是模型内部的“地雷”，一旦踩中就可能让模型“短路”。

为什么会出现这种情况呢？ 业界普遍认为，这可能源于分词器本身的训练数据与LLMs训练数据之间的差异。分词器可能在从互联网大规模抓取的数据（通常质量参差不齐）上训练，而LLMs本身的训练数据则经过了更严格、更精心的筛选和策划。这就导致某些词元可能出现在分词器的训练集中，但LLMs本身却没有充分学习如何处理它们，从而造成了模型的“崩溃”。

实战风险提醒： 对于我们跨境从业者来说，在使用LLMs进行内容创作、客服对话等关键任务时，虽然遇到故障词元的概率不高，但了解它的存在是重要的。这提醒我们，AI并非百分百完美，在关键环节仍需人工审核，以防出现意料之外的“翻车”情况。理解这些底层机制，有助于我们更好地预判和规避AI应用中的潜在风险。

“无分词器”方法：探索未来

为了彻底解决分词带来的各种问题，研究者们也在探索“无分词器”（Tokenizer-Free）的方法。

在最近一篇名为《T-FREE: Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings》的论文中，就提出使用“稀疏向量”来表示文本，从而完全跳过复杂而繁重的分词过程。

实战洞察： 这种稀疏表示方法不仅有望提高效率，还能更好地保留文本的语义信息，弥补传统分词在上下文理解上的一些不足。这代表了LLMs领域的一个前沿趋势，也提醒我们，技术发展日新月异，作为跨境实战专家，我们必须保持开放的心态，持续关注行业动态。新媒网跨境认为，拥抱创新，才能在瞬息万变的全球市场中立于不败之地。