7B大模型内存狂降一半！AI量化神技，算力瓶颈成历史！

大模型时代浪潮汹涌，人工智能正以超乎想象的速度改变着我们的生活。然而，随着AI模型日益庞大和复杂，它们对硬件资源的需求也水涨船高，常常超出现有设备的承载能力。在这样的背景下，“模型量化”这项技术应运而生，并迅速成为解决这一挑战的关键法宝，它让那些资源密集型的模型也能在有限的硬件上高效运行。

想象一下，一个身形庞大的“智慧巨人”想要跑得更快，住进更小的“房子”，量化技术就像是为它量身定制的“减肥”和“瘦身”方案。业界领先的英伟达（NVIDIA）TensorRT和Model Optimizer等工具，更是简化了量化过程，在保持模型准确性的前提下，显著提升了运行效率。新媒网跨境了解到，这不仅是技术革新，更是AI普惠化的重要一步。

本文将深入浅出地为大家揭秘模型量化的工作原理，以及在何时、何地应用这项技术。希望通过这篇文章，无论是AI领域的开发者，还是对前沿科技充满好奇的普通读者，都能对模型量化有一个清晰而实用的认识。

量化技术，究竟能带来哪些惊喜？

模型量化，说到底就是为了在资源受限的环境中，部署越来越复杂的深度学习模型，同时还要尽可能地维持模型应有的精度。当前，AI模型，特别是生成式AI模型，其规模和计算需求都在以前所未有的速度增长。它们动辄数十亿甚至上千亿的参数，犹如一座座数据巨山，对内存占用、推理速度和能耗都构成了巨大挑战。

量化技术正是解决这些痛点的“灵丹妙药”。它通过降低模型参数（包括权重和/或激活值）的精度来实现目标，比如将原本的FP32（32位浮点数）精度，转换为FP8（8位浮点数）精度。别小看这几个比特的减少，它能大幅度缩小模型的体积，降低计算需求。这就好比将原本需要精细雕琢的艺术品，在不失神韵的前提下，简化为更具效率的粗犷线条。

这样的“瘦身”带来的好处是显而易见的：首先是推理速度显著加快，模型在更短的时间内给出结果，用户体验自然更好；其次是能耗大大降低，这对于移动设备、边缘计算场景，乃至大规模数据中心的绿色节能都至关重要。设想一下，如果每一台手机上的AI应用都能因此减少电量消耗，其累积的社会效益将不可估量。

当然，事物都有两面性。量化虽然能带来诸多优势，但也可能导致模型精度相对于原始模型有所下降。这就像是艺术品简化后，虽然更易于传播，但细节上可能会有所牺牲。因此，如何在模型精度和效率之间找到最佳平衡点，就成了量化过程中需要仔细权衡的关键。这种权衡，往往取决于具体的应用场景和对性能指标的严格要求。

数据类型：AI模型量化的基石

在深入了解量化算法之前，我们首先需要理解数据类型在计算中的重要性。不同的数据类型（如FP32、FP16、FP8等）直接影响着模型所需的计算资源，进而决定了模型的运行速度和效率。

通常，一个浮点数会使用n个比特位来存储其数值，这n个比特位又被巧妙地划分为三个部分：

符号位（Sign）：这仅仅一位，用来指示数字是正数（0）还是负数（1）。
指数位（Exponent）：这部分编码了指数，代表了基数（通常在二进制系统中是2）的幂，它决定了该数据类型所能表示的数值范围。指数位越多，能表示的数值范围就越大。
有效数字/尾数（Significand/Mantissa）：这部分代表了数字的有效位数，也称作尾数。一个数字的精度，很大程度上就取决于尾数的长度。尾数位越多，数字的表示就越精确。

用公式来表示，一个浮点数x的近似值为：
$\displaystyle x = (-1)^{\text{sign}} \times 2^{\text{exponent}} \times \text{mantissa}$

由于分配给指数和尾数的比特位数可以不同，数据类型有时会进一步细分。例如，对于FP8，我们可能会看到E4M3的标识，这意味着其中4比特用于指数，3比特用于尾数。这种精密的分配，直接决定了数据类型能表示的数值范围和精度。

下面的图表（图1）直观地展示了不同数据类型（包括FP16、BF16、FP8和FP4）的表示方式及其对应的数值范围。从图中我们可以清晰地看到，随着比特数的减少，如何在范围与精度之间进行取舍，是设计低精度数据类型时必须考虑的核心问题。新媒网跨境认为，理解这些基础知识，是掌握模型量化技术的第一步。
A visual comparison of different floating-point data types (FP16, BF16, FP8, FP4), showing how the total bit count is distributed across the Sign, Exponent, and Significand/Mantissa, illustrating the resulting trade-off between range and precision for each format.
图1. FP16、BF16、FP8、FP4等不同浮点数表示方式对比

量化“三巨头”：你需要知道的关键元素

量化，并非仅仅针对模型的一个部分。在现代AI模型，特别是大型Transformer架构中，有三个核心元素可以被量化，它们共同构成了模型“瘦身”的立体攻势。

首先，最直观也是最容易理解的，就是模型权重。权重是模型在训练过程中学习到的参数，它们是静态的，并且直接决定了模型的“知识储备”。量化模型权重，能够显著减少模型的内存占用。

举个例子，假设我们有一个Llama2 7B（70亿参数）的模型，如果它以FP16/BF16（16位浮点数/BFloat16）精度存储，那么每个参数需要占用2个字节。这样一来，整个模型将占用大约14 GB的内存（70亿参数 * 2字节/参数）。而通过将模型量化到FP8（8位浮点数），每个参数只需1个字节，模型的权重内存占用将直接减半，降至约7GB。这意味着，原本可能只有高端服务器才能运行的模型，现在有机会部署到更经济、更小巧的设备上，大大降低了AI应用的门槛。

其次，是模型激活值。激活值是模型层在每次操作后产生的中间输出，虽然它们是动态变化的，不会像权重那样被明确地包含在模型文件中，但在推理过程中却扮演着至关重要的角色。量化激活值可以进一步提升推理速度，因为它能利用专门的Tensor Core硬件，这些硬件在处理低比特宽度数据时，能够实现更高的吞吐量。这就像是为模型在运行时开辟了一条“高速通道”，让数据流转更加顺畅。

最后，针对Transformer架构的解码器模型，我们还有一个独特且重要的量化对象：KV Cache（键值缓存）。在解码器模型进行推理时，它会自回归地生成输出token，并利用KV Cache来加速这一过程。KV Cache的大小取决于序列长度、层数和注意力头数。对于像Llama2 7B这样的大模型，如果上下文窗口很长（例如，4096个token），KV Cache的内存占用也可能达到数GB。量化KV Cache，就能有效降低这部分动态内存的消耗，对于部署支持长上下文的生成式AI模型尤其关键。

总结来说，在当今基于Transformer的模型中，我们可以量化的三个核心元素是：模型权重、模型激活值，以及KV Cache（仅适用于解码器模型）。对这三者的协同量化，是实现AI模型高效部署和运行的关键策略。

量化算法：高精度到低精度的“转换魔法”

既然我们已经了解了量化的概念和益处，接下来就深入探讨一下量化的核心——算法。这部分将展示高精度数值是如何被巧妙地转换为低精度表示的。这个过程涉及多种技术来确定“零点（zero point）”和“比例因子（scaling factor）”，进而引出了两种主要的量化类型：仿射/非对称量化（affine/asymmetric quantization）和对称量化（symmetric quantization）。

量化本质上是将浮点数 x（其值位于[α, β]区间内）映射到低精度值 x_q（其值位于[α_q, β_q]区间内）。举例来说，当我们将FP16浮点数值x映射到FP8 E4M3（4比特指数，3比特尾数）格式的x_q时，可表示的近似范围通常是这样的：

FP16 x 的范围大约在 [-65504, 65504]
FP8 x_q 的范围大约在 [-448, 448]

可以看到，我们把一个非常宽泛的浮点数范围，压缩到了一个相对窄小的低精度整数范围中。

仿射量化：灵活的映射策略

仿射量化，又称非对称量化，它由两个关键参数定义：比例因子s和零点z。

**比例因子s**是一个浮点数，它决定了量化器的“步长”，也就是每个低精度数值所代表的高精度数值的跨度。
**零点z**的类型与量化后的值x_q相同，它确保了高精度值中的真实零点能够被精确地映射到量化后的表示中。零点需求的存在，通常是为了更高效地实现神经网络算子，因为这些算子在边界处经常需要进行零填充操作。

一旦这些参数确定，量化过程就可以开始了。其公式表示如下：
$\displaystyle x_q = \text{clip} \left( \text{round} \left(\frac{x}{s} + z\right),, \alpha_q,, \beta_q \right)$
其中：
(1) x 是原始的高精度数值。
(2) x_q 是量化后的低精度数值。
(3) s 是比例因子，一个正实数。
(4) z 是零点。
(5) α_q 和 β_q 定义了量化后表示的范围。
(6) round 函数将缩放后的值四舍五入到最接近的量化表示。
(7) clip 函数确保量化后的值保持在α_q和β_q定义的范围内。

要从量化值中恢复近似的原始高精度值，我们可以使用反量化公式：
$\displaystyle x \approx x' = s \cdot (x_q - z)$
这里的 x' 是原始值 x 的近似恢复值。在这个量化和反量化过程中，不可避免地会产生舍入误差和截断误差，这是量化固有的特性，也是我们追求精度与效率平衡的关键所在。

对称量化：简洁高效的选择

对称量化是仿射量化的一种简化版本，它的主要特点是零点z被固定为0。这一简化带来了显著的计算优势，因为它消除了许多加法运算，使得量化和反量化过程更加高效。

对称量化的公式如下：
量化：
$\displaystyle x_q = \text{clip}\left( \text{round}\left(\frac{x}{s}\right),, \alpha_q,, \beta_q \right)$
反量化：
$\displaystyle x \approx x' = s \cdot x_q$

下面的图2直观地展示了仿射量化和对称量化之间的区别。
Two diagrams comparing Affine/Asymmetric Quantization, where the real-valued zero maps to an offset z, versus Symmetric Quantization, where the real-valued zero maps directly to the quantized zero.
图2. 仿射量化与对称量化对比

尽管非对称量化在理论上可能提供略微更高的精度，但在实际应用中，它并没有比对称量化带来显著的精度提升，反而增加了计算的复杂性。因此，出于简洁性和效率的考量，对称量化在业界得到了更广泛的支持和应用。例如，英伟达（NVIDIA）TensorRT和Model Optimizer工具都主要采用对称量化方案。这也预示着，未来我们将更多地聚焦于对称量化，因为它在实际部署中表现出的优势更为突出。

AbsMax算法：如何确定比例因子？

比例因子s在量化过程中扮演着核心角色。那么，它的值究竟是如何确定的呢？这里我们将介绍一种常用的方法——AbsMax量化算法。这种算法因其简单有效，在计算这些关键值时被广泛采用。

AbsMax算法的思路很简单：它通过找到输入数据中的最大绝对值来确定比例因子。具体计算公式如下：
$\displaystyle s = \frac{\max(|x_{\max}|,, |x_{\min}|) \cdot 2}{\beta_q - \alpha_q}$
这个比例因子的值，取决于原始输入数据的范围（x_max和x_min的绝对值）以及目标量化表示的范围（β_q和α_q）。

图3展示了从FP16到FP8的对称量化过程，并使用了AbsMax算法。
A flow diagram showing the process of symmetric quantization from FP16 to FP8 using the AbsMax algorithm. Key FP16 values like x_max, x_min, 0, x_q, and x_max are mapped via arrows to their quantized FP8 E4M3 counterparts: alpha_q, 0, x_q, and beta_q respectively, with the range of the FP8 E4M3 from -448 to 448.
图3. 使用AbsMax算法的FP16到FP8对称量化过程

我们来计算一下图3中的比例因子s：
假设原始FP16数据的最大绝对值是12.8，最小绝对值是-6.2。目标FP8 E4M3的范围是[-448, 448]。
那么，
$\displaystyle s = \frac{\max(|12.8|,\, |-6.2|) \cdot 2}{448 - (-448)} = \frac{12.8 \cdot 2}{896} = 0.028$

确定了比例因子后，我们就可以对任意原始FP16值进行量化了。例如，给定x=6.4，量化后的FP8值可以这样计算：
$\displaystyle x_q = \text{clip}\left( \text{round}\left(\frac{6.4}{0.028}\right),\, -448,\, 448 \right) = \text{clip}(\text{round}(228.57), -448, 448) = \text{clip}(229, -448, 448) = 229$
(这里原文的228.57应是四舍五入后的整数，我进行了修正以符合round函数的通常行为)

通过这种方式，AbsMax算法简单而有效地将高精度浮点数映射到低精度整数，为模型的轻量化部署奠定了基础。

量化粒度：精细化管理的艺术

到目前为止，我们已经了解了量化参数的定义、量化操作的执行方式，以及如何使用AbsMax量化来计算这些参数。接下来，我们将探讨量化粒度——即量化参数在张量元素之间共享的程度。更具体地说，这指的是在使用AbsMax量化时，我们计算原始数据中x_max和x_min值的范围究竟有多“细致”。不同的粒度策略，将直接影响量化效果、内存开销和计算复杂度。

目前最常用的有三种策略：

逐张量（Per-tensor）或逐层（Per-layer）量化：这是最简单、最节省内存的方法。它意味着在一个张量中的所有数值，都使用同一组量化参数进行量化。这种方式就像“一刀切”的策略，虽然实现起来最容易，但当数据在不同维度上分布差异较大时，可能会导致较高的量化误差。想象一下，如果一个班级所有同学都用同一把尺子测量身高，那精度自然不高。
逐通道（Per-channel）量化：这种方法提供了更细致的控制。它为每个通道（通常在卷积层中沿通道维度）使用不同的量化参数。通过将离群值的影响隔离到各自的通道，而不是影响整个张量，这种方法能够有效减少量化误差。这好比针对不同类型的物品使用不同的称量工具，自然能得到更准确的结果。对于深度学习模型，不同的通道往往代表着不同的特征信息，为它们单独设置量化参数，能更好地保留这些特征的表达能力。
逐块（Per-block）或逐组（Per-group）量化：这是一种更为精细的控制方式，它将张量划分为更小的块或组，每个块或组都有自己独立的量化参数。这种方法在张量不同区域的数值分布差异很大时特别有用，因为它能实现局部的优化。它就像是针对不同区域使用定制化的测量方案，确保了在局部范围内达到最优的量化效果。当然，粒度越细，需要存储的量化参数就越多，这会带来额外的内存开销。

图4直观地比较了这些不同的量化方法。
Visual comparison of quantization methods. Per-Tensor quantization applies a single scale and zero-point across the entire tensor. Per-Channel quantization applies different scales and zero-points along the channel dimension (horizontal strips). Per-Group (or per-block) quantization applies distinct scales and zero-points to smaller, localized groups within the tensor.
图4. 量化粒度：逐张量、逐通道和逐块对比

选择哪种量化粒度，需要在精度、内存占用和计算复杂度之间进行权衡。对于追求极致效率的场景，逐张量量化可能足够；而对于需要更高精度的任务，则可能需要采用逐通道甚至逐块量化。

先进算法：量化技术的未来探索

除了基础的AbsMax算法之外，为了在最大程度提升效率的同时，尽可能减少精度损失，一系列先进的量化算法应运而生。新媒网跨境获悉，这些算法正不断推动量化技术向前发展，使得更低比特的量化成为可能。本节将简要介绍其中三种最广为采用的先进算法。

激活感知权重（AWQ）量化：AWQ是一种专注于权重的量化方法。它的核心思想在于，通过分析校准过程中收集到的激活统计信息，识别并“保护”一小部分对模型性能至关重要的“显著（salient）”权重通道。对于这些关键权重，AWQ会采用逐通道的缩放策略，有效地降低量化误差，从而实现高效的低比特量化。这就像在做“模型瘦身”时，我们不仅仅是简单减重，更是要保护好模型最重要的“大脑区域”，确保其核心功能不受影响。
生成式预训练Transformer量化（GPTQ）：GPTQ算法通过独立量化权重矩阵的每一行来压缩模型。它利用近似的二阶信息，特别是Hessian矩阵（一个描述函数曲率的数学工具），来指导量化过程。这种方法旨在最大限度地减少量化引入的输出误差，从而在模型性能损失最小的情况下，实现高效且准确的模型压缩。GPTQ的出现，为大型预训练模型（如GPT系列）的量化提供了强有力的支持，让这些庞然大物也能在相对有限的资源下运行。
SmoothQuant：SmoothQuant旨在实现权重和激活值都能被量化到8比特，同时保持高精度。它通过应用一个数学上等效的逐通道缩放变换，来“平滑”激活值中的离群点。这种巧妙的转换，实际上是将量化的难度从激活值转移到权重上，使得两者都能更好地适应8比特量化，从而同时保证了模型精度和硬件效率。SmoothQuant的贡献在于，它提供了一种协同优化权重和激活值量化的方案，为实现更深度的低比特量化打开了大门。

这些先进算法的出现，标志着模型量化技术正从简单的数值映射，走向更智能、更精细的优化。它们共同的目标是，在不断追求极致效率的同时，让AI模型依然能够保持其强大的性能。

量化途径：何时何地进行“瘦身”？

量化模型权重相对直接，因为权重是静态且不依赖于数据的，在大多数情况下无需额外数据即可进行。然而，激活值则不同，它们是动态的，其分布会随着不同的输入数据而显著变化，从而影响理想的比例因子。那么，我们应该在模型的哪个阶段进行量化呢？这引出了两种主要的量化途径：训练后量化（PTQ）和量化感知训练（QAT）。

训练后量化（PTQ）：模型“毕业”后的微调

训练后量化（Post-Training Quantization, PTQ）顾名思义，是在模型完成训练之后进行的量化。它的主要优势在于无需重新训练模型，成本较低，实施起来相对简单。

PTQ主要分为两种方法：仅权重（Weight-Only）量化和权重与激活值（Weights and Activations）共同量化。

仅权重量化：这种方法非常直接。我们直接访问训练好的模型权重，然后使用计算出的比例因子（可能带或不带零点参数），将这些权重映射到较低精度的数值。由于权重是已知的、固定的，因此不需要额外的数据。这就像给模型的核心知识进行压缩编码。
权重与激活值共同量化：要量化激活值，我们需要了解它们在模型运行时的动态分布。这需要提供代表性输入数据。通过在这些数据上运行模型，我们可以收集激活值的统计信息，并据此确定合适的比例因子和零点。这个收集统计信息并确定参数的过程，我们称之为校准（Calibration）。在校准期间，模型权重保持不变，输入数据仅用于计算量化参数。

根据校准过程发生的时间，权重与激活值量化又可以细分为两种主要方法：

静态量化（Static Quantization）：这种方法使用一个校准数据集，一次性计算出所有的量化参数。这些参数一旦确定，就会被固定下来，并在所有未来的推理任务中重复使用。优点是推理时无需额外计算参数，效率高。缺点是如果未来的输入数据分布与校准数据集差异较大，可能会导致精度下降。
动态量化（Dynamic Quantization）：与静态量化不同，动态量化在推理时实时计算量化参数。这意味着，量化参数会根据每个具体的输入数据而变化。这种方法不需要预设的校准数据集，理论上对输入数据的泛化能力更强。但缺点是每次推理时都需要额外计算参数，可能会增加推理延迟。

PTQ的普及，大大降低了模型部署的门槛，使得许多原本因资源限制无法运行的模型，得以在更广泛的设备上发挥作用。

量化感知训练（QAT）：让模型“天生”适应低精度

量化感知训练（Quantization Aware Training, QAT）是旨在弥补模型量化后可能出现的质量下降而设计的一种技术。与PTQ在模型训练完成后才进行量化不同，QAT将量化的影响直接整合到训练过程中。

其核心思想是，在模型的正向传播和反向传播过程中，模拟低精度算术操作。这使得模型参数能够学习并适应由量化引起的误差，例如舍入误差和截断误差。

在QAT过程中，模型会使用“假量化（fake quantization）”模块。这些模块模拟了低精度操作的行为，但并不真正改变数据类型。它们会先对模型权重和激活值进行量化，然后立即反量化回高精度，这样模型在训练时就能“体验”到量化带来的效果，而梯度更新依然在高精度下进行。通常情况下，在QAT期间，这些“假量化”模块的参数（如比例因子和零点）会被固定，然后对模型权重进行微调（fine-tuning）。

为了解决量化函数（如舍入函数）在训练过程中不可导的问题，QAT引入了直通估计器（Straight-Through Estimator, STE）。STE在反向传播时，将这些函数的梯度近似为恒等映射，从而克服了不可导的难题，使得模型在存在非可导操作的情况下也能有效训练。

QAT的优点是能够实现更低的比特量化（例如，低于8比特），并且通常能获得比PTQ更高的精度。缺点是它需要重新训练或微调模型，增加了训练的复杂度和时间成本。然而，对于那些对精度要求极高，又希望能达到极致效率的应用场景，QAT无疑是最佳选择。新媒网认为，随着AI应用场景的日益丰富，PTQ和QAT都将继续发挥重要作用。

结语

在当下这个大模型风起云涌的时代，模型量化技术无疑是推动AI普惠化和高效化的关键力量。通过本文，我们共同探索了量化的理论基础，从不同浮点数格式的细微之处，到主流的量化方法（如PTQ和QAT），再到可以量化的关键元素——模型权重、激活值，以及大型语言模型（LLMs）特有的KV Cache。

我们认识到，量化不仅仅是简单地削减比特数，更是一门平衡精度与效率的艺术。无论是追求快速部署的训练后量化（PTQ），还是力求极致精度的量化感知训练（QAT），抑或是选择合适的量化粒度和先进算法，都在为AI模型注入新的生命力，让它们能够更好地服务于我们的生活和工作。

未来，随着硬件技术的不断进步和算法的持续创新，模型量化技术必将继续演进，帮助我们构建更小、更快、更节能的智能系统，让AI的触角延伸到每一个角落。让我们共同期待，一个更加高效、普惠的AI时代。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/7b-ai-memory-halved-quantization-power.html