小模型智能提炼避坑指南：省2h+算力直降40%

聊起当下前沿科技，尤其是大模型领域，大家可能都听过“大力出奇迹”的说法，模型越大、算力越足，效果似乎越好。但在跨境实战中，我们往往面临资源限制，如何在有限的条件下，也能让小型模型拥有“大智慧”？这正是我们今天深入探讨的知识蒸馏（Knowledge Distillation，简称KD）技术所要解决的核心问题。

在之前的分享中，我们曾聊到过Hugging Face的“Smol”系列小模型，它们通过高质量数据集混合训练，展现了小模型强大的潜力。今天，我们要把目光投向更深层的训练技巧，而知识蒸馏无疑是其中的佼佼者。这项技术早在十多年前就已萌芽，但直到最近，像DeepSeek（智谱AI）在DeepSeek-R1模型上成功实践，将其能力有效蒸馏到小模型中，才再次掀起一股热潮，引发了业界广泛关注。

那么，知识蒸馏的核心思想究竟是什么呢？简单来说，它就像是经验丰富的老师傅（大模型）将自己的“看家本领”传授给初出茅庐的徒弟（小模型）。通过这个过程，小模型能够继承大模型的强大能力，省去了从头摸索的艰辛，让强大的AI技术变得更加触手可及。

接下来，作为新媒网跨境的一员，我将带大家一起，从这项技术的起源聊起，看看它是如何一步步发展演变，现今又有哪些类型，实战中哪些关键因素能提升蒸馏效果，以及如何巧妙运用它来解决实际问题。

我们将一起探索：

知识蒸馏这项技术是如何诞生的？
知识蒸馏的详细工作原理是什么？
知识蒸馏有哪些不同类型？
目前有哪些先进的蒸馏算法？
蒸馏的“缩放法则”是什么？
实战中，知识蒸馏能带来哪些好处？
这项技术又有哪些局限性？
有哪些成功的案例值得我们借鉴（比如智谱AI和OpenAI之间的故事）？
最后，我们会进行一个总结。

知识蒸馏这项技术是如何诞生的？

知识蒸馏的思想源头可以追溯到2006年，当时美国（USA）的Bucilă、Caruana和Niculescu-Mizil等研究人员，在他们的论文《模型压缩》（Model Compression）中提出，一个由多个模型组成的庞大模型集合，可以被压缩成一个更小的单一模型，并且精度损失微乎其微。他们发现，这种“笨重”的模型（比如模型集成）能被一个“精瘦”的模型有效替代，后者部署起来更便捷。

到了2015年，机器学习界的泰斗杰弗里·辛顿（Geoffrey Hinton）教授，与奥里奥尔·维尼亚尔斯（Oriol Vinyals）和杰夫·迪恩（Jeff Dean）等研究人员共同发表了里程碑式的论文《蒸馏神经网络中的知识》（Distilling the Knowledge in a Neural Network），正式提出了“蒸馏”这个概念。这个术语形象地描述了将大型复杂AI模型或模型集合中的知识，转移到更小、更快的AI模型（即被蒸馏的模型）的过程。

他们提出，与其让小模型仅仅学习正确的答案，不如让它去学习大模型对每个选项的“概率分布”。这就像老师傅教徒弟，不仅告诉他“这是对的”，更会解释“为什么这个选项有百分之九十的把握，那个选项只有百分之五”。这样一来，小模型学到的就不只是对错，更是大模型在判断时的“自信程度”和“内在逻辑”，从而更好地举一反三。这个训练理念与Softmax函数紧密相关，我们这就来具体看看它是怎么运作的。
image/png

知识蒸馏的详细工作原理是什么？

首先，我们得弄明白Softmax函数是什么。在机器学习，尤其是神经网络中，Softmax是一个非常关键的数学函数，它能把模型原始的评分（我们称之为Logits）转化为概率。它的作用是帮助模型判断输入属于哪个类别，并且保证所有输出值的和为1，这样我们就能把它们看作是概率了。

Softmax中有一个重要的参数叫做“温度”（Temperature，简称T）。这个“温度”参数就像一个旋钮，可以控制模型预测的“自信”或“不确定”程度。它能调整概率分布的“锐利度”——让它变得更“自信”（更尖锐）或更“不确定”（更柔和）。如果T等于1，那就是默认设置，Softmax会按常规方式工作，通常只有正确答案会得到接近100%的概率。这种情况下，Softmax会生成“硬目标”（Hard Targets）。

当“温度”升高（T > 1）时，Softmax就会生成“软目标”（Soft Targets），这意味着概率分布会变得更加分散或柔和。这种“软目标”对于知识蒸馏和模型训练来说非常有用，我们接下来的蒸馏过程就能解释为什么。知识蒸馏通常包含以下几个步骤：

第一步，首先得有一个已经训练好的“教师模型”，它在大数据集和原始任务上表现出色。
接着，这个教师模型会生成一系列Logits（原始评分）。然后，我们会用一个更高的“温度”参数，将这些Logits通过Softmax函数转换为“软目标”，让概率分布变得更柔和。
最后，我们的“学生模型”就会用这些“软目标”进行训练，通常还会结合原始的“硬目标”（真实标签）。学生模型的目标是尽可能地缩小自己输出的概率分布与教师模型输出的概率分布之间的差距。
image/png

在这个过程中，学生模型不仅学习正确的答案，更重要的是，它还学习了教师模型在这些答案上的相对“自信程度”，甚至是它犯错时的“倾向性”。这种关于教师模型如何在错误类别上分配概率质量的“知识”，提供了丰富的信息，帮助学生模型更好地进行泛化。

通过将对真实标签的标准训练损失，与对教师模型软标签的蒸馏损失结合起来，即使学生模型的参数远少于教师模型，也能达到接近教师模型的准确率。

如果用一句话总结其核心思想，那就是：学生模型被优化，是为了模仿教师模型的“行为方式”，而不仅仅是“输出结果”。

在辛顿教授等人的论文中，还提出了另一种蒸馏方法，叫做“匹配Logits”。这种方法不只是复制概率，而是直接让小模型的Logits（原始评分）尽可能地接近大模型的Logits。在高温设置下，这种方法在数学上与标准的知识蒸馏是等效的，两者都能带来相似的益处。

知识蒸馏有哪些不同类型？

我们刚刚聊到的只是知识蒸馏的两种具体操作方式，但KD的应用远不止这些。根据知识从教师模型转移到学生模型的“方式”不同，它还可以分成多种类型。悉尼大学（University of Sydney）和伦敦大学（University of London）的研究人员在《知识蒸馏：一项综述》（Knowledge Distillation: A Survey）这篇论文中，对这些类型进行了非常清晰的阐释。常见的技术包括：
image/png

基于响应的蒸馏（以输出作为知识）： 这正是我们之前讨论过的经典方法。它利用教师模型的最终输出概率作为学生模型训练的目标。这种方式在图像分类、目标检测、姿态估计等多种AI任务中都表现出色。
基于特征的蒸馏（以中间层作为知识）： 学生模型不仅模仿最终预测，还从教师模型的中间层或特征图（Feature Maps）中学习。这个想法最早在《FitNets：精瘦深层网络的提示》（FitNets: Hints for Thin Deep Nets）这篇论文中被提出。可以把这种技术理解为：学生模型在学习老师傅一步步解决问题的过程。学生模型会将自己的中间表征与教师模型进行匹配，从而不仅学会了正确答案，也掌握了背后的推理过程。像注意力图（Attention Maps）、概率分布和层连接等不同方法，都可以帮助匹配教师和学生的特征。这项技术在图像识别和目标检测等任务中尤其能提升性能。
基于关系的蒸馏（以关系作为知识）： 学生模型学习模仿教师模型不同部分之间的关系——既可以是层与层之间，也可以是不同数据样本之间的关系。比如，学生模型会比较多个样本，学习它们之间的相似性。这种方法虽然更复杂，但可以与多个教师模型协同工作，融合它们的知识。

以上是根据“蒸馏什么”来划分的三种主要概念。但具体在训练过程中，我们又是如何传递这些知识的呢？主要有三种方式：

离线蒸馏（Offline Distillation）： 教师模型先完全训练好，然后才去教学生模型。这就像老教授退休后，把毕生所学整理成教材，供学生学习。
在线蒸馏（Online Distillation）： 教师模型和学生模型同时学习、共同进步。这更像是师徒二人边学边练，共同成长。
自蒸馏（Self-distillation）： 学生模型从自身学习。听起来有点玄乎，但实际上，它可以通过内部机制，让模型自身的某些部分充当“老师”，来指导另一些部分的学习。

关于这些训练方案，大家需要了解的是：
image/png

当然，这还不是全部。自从知识蒸馏的概念诞生以来，为了提高知识迁移的效率，许多不同的方法被不断开发出来。

进阶算法

为了让知识蒸馏更有效，研究人员们提出了各种算法，甚至融合了其他先进技术。下面是一些值得我们关注的例子：

多教师蒸馏： 就像“百家讲坛”，学生模型从多个教师模型那里汲取知识，从而学得更全面。这种方法可以针对不同特征使用不同的教师，或者综合所有教师的预测，甚至在每一步训练中随机选择一位教师。它融合了多种模型的优点，增加了知识的多样性。
跨模态蒸馏： 在不同类型的数据之间传递知识，比如从图像学习到文本，或者从音频学习到视频。这拓展了知识蒸馏的应用边界。
基于图的蒸馏： 重点关注数据点之间的关系，这有助于捕捉隐藏的联系，更好地理解数据结构。
基于注意力的蒸馏： 教师模型生成注意力图，突出数据中的重要区域，学生模型则模仿这些注意力图，学会把重点放在哪里。
非目标类别增强知识蒸馏（NTCE-KD）： 这种方法关注教师模型输出中，那些通常被忽视的非目标类别的概率。这意味着学生模型不仅学习正确的标签，也学习那些“不那么对”的标签的倾向性。
对抗性蒸馏： 利用生成对抗网络（GANs）帮助学生模型通过模仿教师模型来提升自己。GANs可以生成额外的合成数据来改进学生训练，或者使用其判别器（判断数据真伪的组件）来比较教师和学生模型的输出。
无数据蒸馏： 这种方法不需要原始数据集。在这种情况下，GANs同样被用来根据教师模型生成合成训练数据。
量化蒸馏： 将大型模型中用于计算的高精度数值（比如32位）转换为更小的低精度数值（8位或2位），使AI模型更轻巧、运行更快。这对于部署在资源受限设备上意义重大。
推测性知识蒸馏（SKD）： 在文本生成训练中，学生模型和教师模型协同工作。学生模型生成草稿token，教师模型则选择性地替换低质量的token，实时生成与学生模型自身分布一致的高质量训练数据。
终身蒸馏： 模型持续学习，在学习新技能的同时，也能记住旧的知识。这种方法有多种变体：1）模型学习如何学习，以便能快速适应新任务（元学习）；2）它利用过去任务的知识，只需少量示例就能学习（小样本学习）；3）在训练新任务时，它会保留其知识的压缩版本（全局蒸馏）。
生成模型中的蒸馏： 指的是将复杂的生成过程蒸馏为更简单的过程。例如，可以将一个多步骤的扩散模型蒸馏成一个单步骤的生成模型（通常是GAN），从而大大加速推理。同样，在文本转语音模型中，蒸馏可以将自回归模型压缩成非自回归模型，加快语音生成速度。
神经网络架构搜索（NAS）： 帮助自动找到最佳的学生模型，以匹配教师模型。

这些多样化的方法充分说明，蒸馏是当前训练小模型中一个至关重要的概念，并且仍在不断发展演进。新媒网跨境获悉，这项技术在未来的AI应用中将扮演越来越重要的角色。

蒸馏的“缩放法则”

我们探讨了多种将知识从大模型转移到小模型的方法。但我们能否预测这种知识蒸馏的效果究竟有多好呢？蒸馏后的模型性能会如何？又会受到哪些因素的影响？在这一点上，美国（USA）的苹果公司（Apple）和英国（UK）的牛津大学（University of Oxford）为这个宏大课题做出了重要贡献。他们提出了“蒸馏缩放法则”，并识别出模型在蒸馏后的关键行为趋势。以下是他们的一些主要发现，大家在实战中进行有效蒸馏时需要重点考虑：

蒸馏缩放法则预测了学生模型表现的三个关键因素：
- 学生模型本身的规模大小
- 用于训练的数据量（token数量）
- 教师模型的规模和质量
这个法则遵循“幂律”（Power Law）关系——性能会以可预测的方式提高，但只会达到一个临界点。超过这个点，即使投入更多资源，模型的性能也不会再有显著提升。
这可以引申出一个实用的思路：如果你的学生模型很小，那么使用一个相对小一些的教师模型就能节省大量计算资源。如果学生模型较大，为了达到最佳性能，你就需要一个更好、更大的教师模型。
随着计算资源的增加，最佳教师模型的大小最初也会随之增长，但随后会趋于平稳，因为使用一个非常大的教师模型将变得过于昂贵。

然而，一个好的教师模型并不总是意味着能培养出一个更好的学生模型。如果教师模型过于强大，学生模型可能反而难以从中学习，导致性能下降。这被称为“能力鸿沟”（capacity gap），指的是学生模型的能力不足以充分模仿教师模型。

知识蒸馏效率最高的情况是：

学生模型足够小，以至于如果直接进行监督学习会非常昂贵。
已经存在一个教师模型，这样就不需要额外承担训练教师模型的成本，或者该教师模型可以用于训练多个学生模型。

研究人员建议在以下情况，使用监督学习而不是蒸馏：

如果教师模型和学生模型都需要从头训练，因为训练教师模型的成本可能会超过蒸馏带来的好处。
如果拥有足够的计算资源和数据，因为在计算或数据预算充足的情况下，监督学习通常会比蒸馏表现更好。

有时，一个学生模型甚至能超越它的教师模型。这种现象被称为“由弱到强的泛化”（weak-to-strong generalization）。

了解这些知识蒸馏的趋势，可以帮助我们在将这项技术应用于小模型训练时，避免一些代价高昂的错误。那么，总的来说，使用知识蒸馏到底有哪些优势呢？

知识蒸馏能带来哪些好处？

在这里，我们将知识蒸馏在训练小型模型方面所具备的优势进行一个总结，这也是为什么它能成为一个优秀选择的原因。

降低内存和计算需求： 知识蒸馏能够在保留大部分性能的同时，显著减少计算资源消耗。小型模型需要的内存和处理能力更少，非常适合部署在边缘设备、移动应用和嵌入式系统中。对于跨境电商而言，这意味着能将AI能力植入到用户手机、智能硬件中，提供更实时、个性化的服务。
更快的推理速度： 蒸馏后的学生模型通常更小，计算量更少，这带来了更低的延迟和更快的预测速度，对于实时应用至关重要。比如，在跨境客服场景中，能更快地响应用户查询。
提升泛化能力： 学生模型往往能学习到更泛化、更精炼的知识，这有助于减少过拟合，提高在未见过数据上的表现。
训练稳定性： 学生模型受益于教师模型结构化的知识，使得训练过程更平稳、更稳定，尤其是在数据量有限或噪声较多的情况下。
转移专业化、多样化和多任务知识： 学生模型可以从多个教师模型那里汲取洞察，从而继承不同架构或领域的知识，并在各种任务中表现出色。
保护隐私的AI： 知识蒸馏可以在不暴露原始数据的情况下训练模型，这在需要遵守数据隐私法规（如GDPR）的跨境业务场景中非常有利。
能源效率： 减少计算量意味着知识蒸馏模型消耗更少的能源，这使得它们在大型AI部署中，无论是从环境还是经济角度来看，都更具可持续性。

知识蒸馏提供了一种强大的方式，使得我们能在实际应用中，利用更紧凑、更高效的模型，发挥最先进模型的强大能力。当然，它也并非没有挑战。

局限性也需注意

任何技术都有两面性，知识蒸馏虽然优势众多，但也存在一些局限性和挑战，作为实战专家，我们也要清醒地认识到。

增加训练复杂性： 蒸馏过程需要训练两个模型——教师模型和学生模型。这比直接从头训练一个小模型多了一个步骤，无疑增加了训练的复杂性。
信息损失： 学生模型可能无法捕捉到大型教师模型的所有细微差别、深层知识或复杂的推理能力。蒸馏是一个压缩过程，总会有一些信息丢失。
性能权衡： 尽管学生模型力求保留教师模型大部分性能，但在模型大小和准确性之间往往存在权衡。如果学生模型过小，它可能没有足够的能力有效地从教师模型中学习。特别是当教师模型对于学生模型来说过于强大时，这种情况会尤为明显。
依赖教师模型质量： 如果教师模型本身存在偏差或错误，这些问题很可能会被传递给学生模型。所谓“名师出高徒”，前提是“名师”本身是优秀的。
对温度和超参数敏感： 知识蒸馏的有效性在很大程度上取决于“温度”参数和损失函数的选择。不恰当的调整可能导致知识迁移效果不佳，或者学生模型性能不理想。
能源和计算成本： 尽管学生模型本身效率很高，但蒸馏过程本身可能会产生巨大的计算成本，尤其对于大型模型而言。

尽管存在这些局限，知识蒸馏仍然是一项被广泛应用的技术，甚至在许多顶级模型中也能找到它的身影。

知识蒸馏的实战应用：那些亮眼的案例

一个非常近期且引人注目的有效知识蒸馏案例，就是中国（China）智谱AI（DeepSeek）的实践。他们成功地将DeepSeek-R1模型的推理能力，迁移到了更小的模型中，从而让强大的推理模型更加触手可及。他们通过DeepSeek-R1产生的80万条高质量训练数据，对Qwen、Llama等开源模型进行了微调。令人惊喜的是，这些经过蒸馏的小模型，在推理基准测试中表现甚至超越了直接对小模型应用强化学习的效果。

然而，这个案例也引发了一场风波。外媒报道，美国（USA）OpenAI公司对智谱AI在蒸馏过程中使用的方法表示担忧。OpenAI声称，智谱AI可能利用了ChatGPT等专有模型的输出来增强其训练数据。有报道指出，智谱AI某些模型的回答与OpenAI系统的回答高度相似，这让人怀疑其存在未经授权的知识提取。更令人寻味的是，智谱AI的模型偶尔会将自己识别为ChatGPT，这暗示了潜在的训练重叠。此外，OpenAI和美国（USA）微软公司据称也检测到与智谱AI相关人员的数据提取工作存在异常活动。这些发现引发了关于知识蒸馏伦理边界和专有AI技术保护的广泛讨论。

尽管争议不断，但智谱AI知识蒸馏的结果是显著的。经过蒸馏的DeepSeek-R1-Distill-Qwen-7B模型在推理基准测试中，表现优于许多更大的模型，例如QwQ-32B。蒸馏后的32B和70B版本在开源AI推理任务中创造了新纪录，充分展示了蒸馏技术在提高模型效率和可访问性方面的有效性。

新媒网跨境认为，这个案例不仅突显了知识蒸馏的巨大潜力，也揭示了AI发展中面临的挑战，引发了业界对合规性和知识产权保护的思考。
image/png

另一个经典案例来自自然语言处理（NLP）领域，那就是Hugging Face的DistilBERT。它是BERT模型的一个蒸馏版本，在保持BERT约97%语言理解能力的同时，运行时长减少了60%，模型大小更是缩小了40%。

2024年10月，美国（USA）微软公司的研究人员将一个4050亿参数的Llama 3.1模型，蒸馏成了70B和8B的变体，并使用了高质量的合成数据。这些蒸馏后的模型不仅保持了与4050亿参数教师模型相当的准确率，甚至在某些基准测试中，其零样本（zero-shot）性能与教师模型持平或超越。

在视觉领域，我们可以看看美国（USA）Meta AI的Segment Anything Model（SAM）作为例子。SAM是一个强大但资源消耗巨大的分割模型。最近，研究人员提出了KD-SAM，一个针对医学图像分割进行蒸馏的SAM版本。通过结合特征图损失，他们将SAM巨型Vision Transformer中的结构和语义知识，迁移到了一个更小得多的模型中。结果，KD-SAM在分割准确性上与原始SAM不相上下，甚至有所超越。

在语音识别领域，美国（USA）亚马逊（Amazon）的Alexa就是一个很好的例子。研究人员利用知识蒸馏方法处理了海量的未标注语音数据：教师模型处理了超过100万小时的语音，生成“软目标”，然后这些“软目标”被用来训练一个更小的学生声学模型。这个经过蒸馏的学生模型能够在Alexa的消费者设备上高效运行，同时在严格的内存和CPU限制下，提供准确的语音识别。

此外，知识蒸馏还助力AI走向边缘设备，例如微控制器、传感器以及依赖电池供电或低能耗运行的分布式设备。

总结

今天，我们深入探讨了知识蒸馏这项训练技术。它通过利用强大、大型模型的能力和知识，被证明是训练小型模型的有效方法。小型模型的普及关乎AI的普惠性，而知识蒸馏正是让知识惠及小型模型的关键。令人欣喜的是，知识蒸馏技术正持续演进，我们今天所见的多种蒸馏方法就印证了这一点。我们期待未来知识蒸馏能有更多突破，克服当前的局限，带来更高效的训练效果。

为了帮助大家更深入地了解知识蒸馏，我们鼓励大家查阅我们整理的一些实用教程和以下文献，开启你的实战之旅！
image/png