大模型“智商”狂降！竟因分词浪费数百亿参数，拖着“死重”前行！

在人工智能飞速发展的今天，大型语言模型（LLM）无疑是科技领域最耀眼的明星之一。无数开发者投入大量心血，精心挑选数据，进行清理、去重，仔细调整架构和学习率，只为训练出一个能真正理解和生成人类语言的模型。当一切看似完美，模型在评估指标上表现尚可，但在实际应用中却状况频出：胡乱生成结构、句子中间失去词形变化、对母语使用者而言简单的问题却屡屡出错。反复检查数据和架构之后，人们往往会发现问题出在一个意想不到的地方——模型的“前门”，也就是我们常说的“分词”环节。

新媒网跨境了解到，一位名叫穆罕默德·弗朗西斯基的开发者在2023年训练第一个摩洛哥阿拉伯语和柏柏尔语语言模型Sawalni.ma时，就深有体会。他花费了大量时间整理数据，但在多轮模型迭代后，其性能始终无法与数据质量相匹配，而英语模型却表现出色。这段经历促使他进行了长达数年的深入研究，并很快构建了Wikilangs项目，涵盖340多种维基百科语言的1800多个自然语言处理模型。在这一过程中，他发现了一个普遍现象：几乎所有遇到困难的语言，首先都在分词边界上遇到了麻烦。简单来说，如果语言表征足够好，所需的数据量就会大大减少。分词，对于那些“低资源语言”而言，简直是无法承受之重，它们在每个词元、每个层级、面对每一种书写变体时，都要为此付出高昂的代价。

深度解析：分词的“魔法”与“魔咒”

我们都知道，大型语言模型本质上是一堆复杂的数字运算，它接收数字输入，输出也是数字。对图像而言，这很简单，因为像素本身就是数字。但文本如何被LLM理解和处理呢？这中间的关键一步就是“分词”。分词将原始文本转换成模型能够处理的数字形式，可以将其视为语言的“基本积木”或“原子意义单元”。我们平时在使用商业LLM服务时，按量计费的“Token”就是这些分词后的单元。

当你输入一段提示文字时，模型在真正“阅读”之前，会有一把“剪刀”——分词器，将文本切成若干片段。问题在于，你无法控制这把剪刀的剪切位置。如果切分得恰到好处，能准确地落在有意义的单元上，比如完整的单词、可识别的词素或音节，那么模型就能迅速重构其意义。但如果切分是随意的、不合理的，模型就不得不花费额外的精力去理解它到底在看什么，才能开始真正的语义分析。接下来的所有问题，都源于这些系统性的“坏切分”。
Good and Bad Tokenizations

大型语言模型通过一次生成一个词元来给出你的提示答案。在这种情况下，我们可以把词元想象成模型被允许按下的“键盘键”。它有一个固定的按键集合，并且在每次响应中按下按键的数量有限。有趣的地方在于，在生成每个词元之后，模型可以选择下一步写什么。如果一个词被无意义地切割，模型就会面临一堆无意义的选项，这些选项本不应该出现在它面前。良好的分词能够产生有用的语段，就像下面这样：
Constructive generalization

但如果分词不当，也可能适得其反，生成一些根本不存在的词汇。
Destructive generalization

词元不仅仅是输入和输出的单位。它们也决定了模型在内部构建意义所使用的“积木”。模型所持有的每一个概念、它所推理的每一个关系、它所识别的每一个模式，都是由这些积木组装而成的。如果你的积木形状奇特，无法清晰地映射到你想要构建的事物上，那么你建造出来的东西就会显得笨拙，并在意想不到的地方崩塌。从远处看，整体结构似乎是正确的，但细节却全是错的。
Lego hack

试想一下，如果孩子拿到的乐高积木都是奇形怪状、无法严丝合缝拼在一起的，他如何能拼出心中所想的城堡呢？模型在处理这些“奇怪积木”时，同样面临巨大的挑战。

“看似”完美的解决方案，实则难以推广

看到这里，你也许会想：“那很简单，为每种语言量身定制一个分词器不就行了吗？”没错，这确实比直接使用英语词汇表或者其他更不相干的分词器要好得多。Wikilangs项目就为340多种维基百科语言提供了这样的定制分词器，因为总比没有要强。然而，新媒网跨境认为，定制分词器只是一个“局部优化”，并非真正意义上的解决方案。

首先，它降低了词元生成的“效率”。虽然在一定程度上改善了边界的一致性，但对于“变体恢复”问题却束手无策。你的分词器是基于现有干净文本训练的，它无法完全覆盖真实使用者书写时可能出现的各种错别字和变体。更根本的问题在于，定制分词器会破坏“跨语言对齐”。一旦你为特定语言训练了一个专属词汇表，你就偏离了使多语言转换成为可能共享的嵌入空间。你每增加一个词元，模型就从未在它现有知识体系中见过这个词元，它需要从头开始学习，直到能将其整合到内部处理流程中。

业内也曾尝试过扩大词汇表、合并词元、双语分词器训练以及脚本专用子分词器等方法。这些方法都在一定程度上帮助了单一语言，但它们之间却无法很好地融合。构建一个能够原生处理阿拉伯语、摩洛哥方言（Darija）、柏柏尔语、约鲁巴语和卡西语的单一模型，这一梦想，在分词层面上仍然面临着结构性障碍。从数字上看，假设每种语言增加4000个词元，这已经是非常低的估计了。那么340多种语言加起来，意味着模型需要处理超过100万个词元。如此庞大的词汇表显然是不切实际的。它会极大地增加模型的大小（一个40亿参数的模型可能因此变成200亿参数，却没有任何性能或输出质量上的提升），并且由于softmax函数的特殊工作方式，会使得生成速度变得极其缓慢。简单地依靠修修补补、一个词汇表接一个词汇表地增加，是无法实现真正的多语言能力的。

衡量指标的“陷阱”与真实挑战

在评估分词器时，人们最常用的两个指标是“压缩率”（compression ratio）和“词元化效率”（fertility）。它们计算简单，便于比较，但也容易被误读。“词元化效率”定义为每个单词平均有多少个词元。如果一个单词被切分成两个词元，那么效率就是二。一般来说，我们希望这个数字越低越好。但对于词形丰富的语言（使用前缀、后缀或更复杂的结构），如果词元能映射到语言的屈折点而非无意义的字母块，那么较高的效率反而可能更受欢迎。但通常来说，效率越高意味着模型在处理每个单词时需要做更多的工作，速度更慢，并且犯错的可能性也更大。

“压缩率”则衡量每个词元对应的文本字节数。由于词元实际上是一种查表操作，映射到较长文本的词元能带来更好的压缩效果。与词元化效率类似，更好的压缩率意味着模型在处理相同数量文本时耗费的精力更少，从而实现更高的输出速度。然而，正如许多统计数据一样，两个截然不同的分词器可能得到相同的词元化效率和压缩率。词元化效率只告诉你序列的长度，却不告诉你切分是否有意义。压缩率则更多关注模式匹配，完全不受语言形态学的约束，导致结果偏离，对大型语言模型造成破坏。

以土耳其语的“evlerden”（意思是“从房子里”）为例：
❌ 差的分词器： ev · lerd · en
✅ 好的（语言感知）分词器： ev · ler · den
其中，“ev”是房子，“ler”是复数，“den”是离格。糟糕的分词器破坏了复数和格位信息，导致语言建模效果更差。一项2025年ICML的研究横跨70种语言，证实了这一差距：当仅通过词元化效率衡量时，形态对齐并不能很好地解释模型性能的差异，而且过度切分实际上可能虚报对齐分数。其他辅助指标，如STRR（有多少单词是单个词元），也无济于事。更好的代理指标是存在的，例如MorphBPE的“形态一致性F1”和“形态编辑距离”，它们在预测训练收敛速度方面比词元化效率更具预测性。但在真实数据（错别字等）的嘈杂环境下，纯粹的形态学方法并非总是可行。

分词器“搞砸”的，模型必须“收拾残局”

你可能用过Gemma、Qwen或ChatGPT，它们确实会说其他语言，所以你可能会质疑我之前的观点。事实是，除了为每种语言定制分词器之外，还有另一种路径。Gemma率先采用了25万个词元的大词汇表，Qwen在其最新的3.5版本中也紧随其后。由于许多语言共用相同的书写脚本，这意味着拉丁字母、阿拉伯字母和西里尔字母被用来书写完全不同的内容，分词器通过生成“通用”词元来反映这一点。这些词元可以用来压缩任何语言的文本，但其边界对于特定语言来说并没有特殊的含义。

即使分词边界缺乏意义，模型在梯度下降的压力下，仍然必须找到一种方法来模仿训练数据并生成合理的响应。而这一成本，则由模型的中间层来承担。但这些中间层并非闲置的冗余容量。它们同时负责句法组合、语义整合、推理以及完成你提示LLM执行的任务。分词器设定了形态重构的“账单”，而中间层则从共享预算中支付。你为此付出的代价，是一个远不如预想中聪明的模型。我深知这一点，因为许多开发者带着同样的问题来找Sawalni团队：“我的智能助手在法语或英语中运行良好。但如果用户用摩洛哥方言提问，质量就会急剧下降，变得无法使用。”这就是那些表面上多语言化的大型前沿语言模型必须付出的代价：因为一半的大脑忙于理解那些无意义的文本片段，导致整体智能水平下降。你可能会说：“但它在我的语言中运行得很好！”然而，在其他条件相同的情况下（模型大小、训练数据、计算资源），它本可以表现得更好。大型语言模型在生成每个词元时，都在拖着“死重”前进。另一证据来自EMNLP 2024年的论文《Tokenization Falling Short》，该研究表明，扩大模型规模可以在一定程度上弥补糟糕分词引入的差距。如果规模可以挽回性能，那么小型模型就不得不将原始参数预算作为清洁输入的替代品。这意味着你并非得到了一个70亿参数模型应有的推理能力，而是得到了一个70亿参数的模型，将其相当一部分能力消耗在了重构原本应存在于词元中的信息上。

方向冲突：一个词元承载了太多意义

全球有超过500种语言，分属20多个语系，它们都使用拉丁字母进行书写，但基于非常不同的假设，语义、语音等各方面都存在重叠但最终又截然不同的特点。因此，当模型使用一个不理想的分词器（甚至可以说是否存在一个“好”的分词器都是问题）在多语言数据上进行训练时，每个词元都需要在其词元嵌入中捕捉到一定的意义，以反映它所遇到的所有语境。如果一个词元出现在太多形态不同的语境中，它就无法收敛到一个清晰的嵌入表示，而是会累积相互冲突的梯度更新，每一个它出现的语境都会贡献一个更新。它需要同时服务于太多方向。

Anthropic公司关于“叠加”（superposition）的研究精确地阐明了这一机制：当一个模型必须表示比其嵌入维度更多的特征时，它会在每个方向上编码多个特征，而代价就是“干扰”。这正是当BPE（Byte Pair Encoding）算法根据频率而非意义来切分形态丰富的单词时所发生的情况。相同的词元片段反复出现在不相关的语境中，从每个语境中累积相互竞争的梯度更新。嵌入无法收敛到清晰的表示，因为它被要求同时服务于太多方向。这些干扰随后在中间层得到解决。多义性涌现的文献表明，相互竞争的特征方向会特别集中在中间层处理中，这意味着更多的共享容量预算没有用于推理，而是用于消除分词器最初制造出来的歧义。EMNLP 2024年的论文《BPE Gets Picky》直接指出：标准的BPE通过将词汇过度分配给高频但语义空洞的单元，创建了训练不足的词元，从而降低了整体嵌入参数的利用率。确切地说，目前尚无单一研究能清晰地从“边界错位”→“嵌入方向方差升高”→“固定参数计数下可测量的推理能力下降”之间画出一条明确的经验线。这条线索是这些研究结果汇聚后所暗示的。通过实证来证实它，正是当前工作所追求的具体问题之一。

错别字、音调符号——脆弱性的级联效应

要快速了解离散分词的问题所在，最直接的方法就是稍微“破坏”一下输入。有趣的是，这个问题并非低资源语言所独有，它影响着所有语言。让我们通过一些代码来看得更清楚：

variants = [
 "tell me", # base
 "Tell me", # capitalization
 "tell  me", # double space
 "tllm e", # transposition typo
 "tellme", # omission typo
 "teell me", # repetition typo
 "tell mé", # diacritic
]
base_ids = set(tok.encode(variants[0]))
for v in variants:
 ids = set(tok.encode(v))
 jaccard = len(base_ids & ids) / len(base_ids | ids)
 print(f"{v!r:20} Jaccard: {jaccard:.2f} {tok.tokenize(v)}")
# Result:
#
# 'tell me' Jaccard: 1.00 ['tell', 'Ġme']
# 'Tell me' Jaccard: 0.33 ['Tell', 'Ġme']
# 'tell  me' Jaccard: 0.67 ['tell', 'Ġ', 'Ġme']
# 'tllm e' Jaccard: 0.00 ['t', 'll', 'm', 'Ġe']
# 'tellme' Jaccard: 0.33 ['tell', 'me']
# 'teell me' Jaccard: 0.25 ['te', 'ell', 'Ġme']
# 'tell mé' Jaccard: 0.33 ['tell', 'ĠmÃ©']

Jaccard系数这一列揭示了部分问题。“tell mé”与“tell me”之间几乎没有任何共同之处。词元没有重叠，没有结构关系，也没有共享的梯度历史。人类在不到100毫秒内就能将两者理解为相同的意图。然而，对于模型而言，这两个是完全不同的序列。如果模型能够识别并纠正这些错别字，那也绝非在词元嵌入层面。理想情况下，词元相似度应该接近1：
Token similarity across typos in English

在意料之中，其他语言的情况也好不到哪里去。例如摩洛哥阿拉伯语中，问题同样突出：
Token similarity across typos in Moroccan Arabic

对于高资源语言来说，这些可能只是不便之处，因为它们已经看到了足够多的变体共现，足以在表示空间中将它们嵌入到附近。但对于低资源语言，这些对应关系从未被学习过，因为构建它们的数据从未存在。卡西语中的字符“ï”和“ñ”在模型输出中被删除或替换的比例高达18%-50%，而这些字符并非装饰性的，它们承载着意义。一个开头的空格就能创造一个完全不同的词元标识：▁tell != tell。在黏着语中，这在每个单词边界上都会与前缀和后缀形态发生破坏性的相互作用。

总结一下：当模型遇到低资源语言的损坏或变体形式输入时，它必须在中间层串联完成三件事：从子词元片段中重构出预期的字符，从这些片段中恢复形态结构，并将这些结构映射回语义概念。在一个拥有良好分词器的训练有素的模型中，这是嵌入层的工作，从而使后面的中间层能够进行有用的工作。对于高资源语言和适配良好的分词器，这个链条几乎不会被激活，因为词元嵌入可以直接使用。而对于低资源语言和错位分词器，这个链条几乎会在每个词元上被触发。这无疑是对模型宝贵计算资源的巨大浪费。

多重“税负”：低资源语言的雪上加霜

低资源语言不仅仅是数据量少，它们还背负着一个乘法效应的惩罚链，每个问题都会放大下一个问题。

税负一：效率开销。 每个单词需要更多的词元。这导致有效上下文窗口变短，每个句子需要更高的注意力计算量。更糟糕的是，会产生一些与语言本身不符的奇特泛化。
税负二：形态不一致。 分词边界不尊重词素。模型不得不花费中间层的深度来重构分词器所破坏的信息，而不是专注于完成它被要求执行的任务。
税负三：无法恢复变体。 由于数据不足，无法学习拼写对应关系。每一个错别字、音调符号变体、标准化不匹配和大小写变化，都像是“冷启动”，在嵌入空间中是完全不相关的序列，并且这种状况会一直持续下去。
税负四：容量溢出。 前三项税负消耗了上下文位置、层深度和嵌入维度。最终留给实际推理的容量，系统性地小于高资源语言从同等模型中获得的容量。

这是一种失控的效应。一种语言的数据越少，其分词质量就越差。分词质量越差，就需要更多的数据来弥补。而“收集更多数据”这一标准建议，前提是假设分词开销是固定的，但低资源语言却永远无法支付这笔开销。你无法通过简单地增加数据来摆脱一个有缺陷的输入管道。这种“税负”在最无力承担的语言身上层层加码，形成了一个难以打破的恶性循环。

Deepseek的启示：一场“认知”革命？

然而，情况并非毫无希望。Deepseek团队在OCR（光学字符识别）领域的出色表现为我们指明了另一条道路：将文本作为渲染图像输入给视觉编码器，在字符级任务上的表现竟然优于将相同的文本作为词元输入。一些从业者甚至独立“发现”了这一“技巧”，他们直接截取文本图像，然后将其传递给多模态模型，以绕过分词带来的问题。

为什么这种方法奏效呢？因为视觉编码器定义了一个连续的潜在空间。一个稍微偏移的边缘仍然是边缘，一个稍微不同的像素仍然是同一梯度的一部分。这种表示从设计上就吸收了变化，这与文本分词所做的离散处理正好相反。这里没有离散的查找，也没有“词汇表外”的问题。没有Unicode标准化陷阱，只有具有平滑几何形状的连续信号。这引发了一个对多语言能力至关重要的问题：如果能给语言模型提供与视觉模型相同的感知前端，那会意味着什么？如果文本，在它最原始的字节序列层面，可以被当作连续信号来消费，而不是离散符号表中的查找，那又会怎样？如果我们能彻底摆脱分词，结果又会如何？新媒网跨境预测，未来最稳健的生产级“分词器”，可能就是JPEG编码器。

未来展望：通向真正多语言AI之路

无分词架构正在获得越来越多的关注。ByT5、字节级模型、Meta FAIR公司在概念嵌入空间而非词元层面操作的“大型概念模型”等，都是真正的进步。但它们通常需要从头开始训练，用序列效率换取鲁棒性，并且不能直接作为对Wikilangs项目涵盖的340种语言现有模型的改进方案。

目前还缺少的是一个“连续预分词层”——一个位于原始文本和LLM的注意力及MLP层之间的组件。它能够将脆弱的离散词元空间映射到一个平滑的表示空间，使得拼写变体、音调符号、标准化形式和形态碎片在模型“看到”它们之前就能够聚合到相邻区域。EMNLP 2024年的论文《Tokenization Falling Short》明确将“扰动不变分词策略”列为未来的研究方向。这正是我们呼吁的未来工作。

以下是一些具体而悬而未决的实证问题：

在固定参数计数下，词元边界的形态错位程度是否能预测下游推理任务中可测量的性能下降？规模敏感性证据暗示是的，但目前还没有研究直接控制这一变量。
一个通过对比学习训练，将拼写变体和形态碎片嵌入到相邻区域的连续预分词层，是否能在不重新训练LLM本身的情况下，弥补性能差距？
这样的层是否能跨越语言家族进行泛化，还是需要针对特定家族的归纳偏置？Wikilangs项目提供了跨340种语言的评估基础设施，可用于大规模测试；Sawalni项目则是专门针对摩洛哥语言的试验场。

分词绝不是一个已经解决的问题。它是阻碍低资源语言发展的结构性障碍，会放大它们所面临的每一个劣势。它就像一个“漏水的桶”，尽管我们不断扩大LLM的规模，它仍在不断消耗着宝贵的资源。如果你正在从事多语言表示、输入编码架构或低资源自然语言处理方面的工作，这些都是具体的开放性实验。期待能与大家携手，共同探索解决方案。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/llm-iq-plummets-tokenization-drag.html