自回归模型避坑指南：省1h+成功率翻倍

大型语言模型（LLMs）近年来在许多领域异军突起。新媒网跨境了解到，国外团队一直努力让这些模型变得更小、更快、更便宜，同时更加环保。在实现这些目标的过程中，优化技术层出不穷，其中包括缓存、模型编译以及先进的量化技术等。然而，这些只是整个系统的一部分，为了更完整地理解工作原理，必须深入了解其核心架构。本篇文章将以简洁易懂的方式介绍当今主流语言模型的四大架构：自回归模型、状态空间模型、基于扩散的模型和液态神经网络模型。

从基本单位开始：分词和嵌入

语言模型的运行原理实际上并不像大众认为的那样“思考”。它首先需要“阅读”你输入的内容，这一过程会通过分词和词嵌入来完成。

分词：模型的阅读方式

假如你向模型询问“如何优化模型？”它并不会直接接收这个句子。第一步是进行分词处理，把句子拆分成更小更容易处理的单元——“分词块”（Token）。分词大致包括以下几个阶段：

文本标准化：例如将大小写统一，把标点符号调整一致，避免因细微的差异影响结果。
预分词：将文本初步拆分成粗略的单元，例如单词或子词。
正式分词：通过一些方法（如BPE字节对编码算法）将预分词后的单元进一步分解成模型处理所需的最小单位，并根据模型的词汇表和训练数据进行映射处理。

当模型生成文本时，它会将每个分词块的ID重新映射回原始的文本内容。

嵌入：赋予分词意义

分词只是文字的数学化表示，仅有这些数字序列还不够准确。为了让模型理解每个分词的语义和彼此之间的关系，每个分词ID会转化为一个高维度的向量，这就是词嵌入。这些向量的维度和排列可以反映分词的语境、用法以及更深层次的含义。
模型分词流程

自回归模型：逐词生成的新媒网视角

目前大多数语言模型都采用自回归方式，这意味着它们是逐个预测文本后续分词来生成完整内容的。这些模型的核心技术通常由Transformer架构驱动。

Transformer架构拆解

在Transformer架构中，每个分词的处理经历以下三个主要步骤：

自注意力机制
自注意力机制的目的是让模型能依据上下文关系判断每个分词的重要性。
- 输入分词会生成查询向量，与其他分词的键向量进行计算，得出“注意力分值”。
- 这些分值会通过权重修正，影响相关的值向量。
- 多头注意力机制可以让模型在同一时间关注多个不同类型的语境关系。
前馈网络
在自注意力的基础上，前馈网络进一步分析没有被关注到的深层次模式。通常会使用非线性激活函数如ReLU或GeLU。
残差连接和层归一化
这种方式可以让模型更加稳定，同时能有效地训练更深层次的网络。

Transformer架构还可以通过以下优化实现更高效的运行：

KV缓存：重复利用已经计算好的键和值，提升生成速度。
注意力优化：使用稀疏注意力或滑动窗口注意力减少计算负担。
闪电注意力和分页注意力：更好管理显存，处理长序列效果更佳。
多查询注意力（MQA）：简化计算，通过共享键值降低开销。
专家混合（MoE）：根据任务选择激活特定网络模块，无需每次全部计算。

状态空间模型：用物理方式看语言

与逐词预测的自回归模型不同，状态空间模型（SSMs）则更偏向利用物理学概念，通过隐空间表示结合输入序列数据进行处理。

状态空间模型会对数据的处理简化成以下三种表示方式：

连续表示：描述分词之间的平滑变化，适合处理不规则的数据采样。
递归表示：通过前一个状态和当前输入来更新状态，擅长处理时间序列。
卷积表示：通过汇总过去多个状态信息，能更快速并行训练。

这些方法各有优缺点，比如递归表示能准确处理顺序信息，但对于较长序列会出现梯度衰退问题。深度状态空间模型则通过组合不同的表示方式进一步加强了对复杂依赖关系的处理能力。

基于扩散模型的LLMs：从无序到有序的生成

扩散机制：从图像到文本的应用

扩散模型的起源来自计算机视觉领域，其核心原理是通过逐步清除噪声还原图像到原始状态。类似的技术被应用到语言模型中：从一个完全噪声的分词序列开始，通过多次迭代优化生成具有逻辑性和结构性的文本。

扩散模型的优点包括：

高效推理：可以并行生成整个内容，而非逐词处理。
逻辑优化：能够一次性考虑段落结构，适合复杂文本。
质量提升：降低了错误生成和减少虚假信息（比如“幻觉”现象）。

四种架构对比与选择建议

总结来看，当今主流语言模型在架构设计上各有特点：

特征	自回归模型	状态空间模型	基于扩散模型
核心原理	逐个分词预测	状态空间处理	噪声迭代生成
计算成本	较高	较低	较高
推理速度	中等偏慢	快速	中等偏快
长文本处理能力	有限的内存支持	针对序列优化	长序列处理有局限
可解释性	中等	中等	较低