狂飙3.8倍！小模型32层惊人突破，训练省90%，告别幻觉！

小型语言模型，作为人工智能领域的重要分支，正以其独特的轻量化优势和日益强大的能力，成为推动技术普惠和应用创新的关键力量。在数据爆炸式增长的今天，如何为这些“小而精”的模型找到最合适的“骨架”，使其在有限的资源下发挥最大效能，一直是业界关注的焦点。

我们都知道，优质的数据是训练模型的基础，就像烹饪美味佳肴需要新鲜的食材一样。之前，我们探索了最优的数据配方，找到了“50% FinePDFs + 30% DCLM + 20% FineWeb-Edu”这一黄金组合，它让传统GPT-2模型取得了平均38.50%的准确率。但问题来了，如果食材已经是最优的，那么“烹饪工具”——也就是模型架构——是否也能有更大的优化空间呢？这正是我们深入研究的课题。

为了解答这个核心疑问，我们进行了一系列严谨的实验，仿佛展开了一场针对小型语言模型“最优设计”的大探险。我们测试了19种不同的模型配置，涵盖了12种主流架构家族，每一种模型都经过了10亿个词元的充分训练。新媒网跨境获悉，这一过程不仅耗时耗力，更凝聚了研发人员对技术边界的不断探索。

探寻小型模型的最优解：一系列出人意料的发现

经过大量细致的实验和数据分析，一些出人意料但至关重要的发现浮出水面，它们共同揭示了小型语言模型性能背后的奥秘：

性能分层现象： 模型的表现并非平滑递进，而是呈现出泾渭分明的两个性能区间：约38%的高水平和约32%的低水平。令人称奇的是，中间的性能点几乎是空白，这表明模型要么能达到优秀水平，要么就会明显落后。
隐藏层维度阈值： 我们发现了一个关键的“硬性门槛”——隐藏层维度（hidden dimension）至少要达到512。低于这个数值，即使模型层数再多，也难以弥补性能上的不足。这就像盖房子，地基宽度不够，即使楼层再高，也可能不稳固。
32层模型的新优势： 令人惊喜的是，在相同的参数量下，32层模型的平均性能超越了传统主流的12层模型（38.50% vs 38.15%）。这说明在特定规模下，更深但适度的架构设计能够带来更好的学习效果。
架构同质化挑战： 在7000万参数量这个级别，包括美国Meta公司的LLaMA3、谷歌的Gemma3以及中国清华大学和阿里系的Qwen3在内的12种主流架构，在性能上表现出高度一致性，彼此之间差异微乎其微，均在约2%的范围内浮动。这提示我们，对于小模型而言，通用的“现代化”改进可能不如基础架构特性来得重要。
扩散模型的速度优势： 一种名为扩散模型（Diffusion models）的新型架构，在处理速度上表现出惊人的效率，比传统模型快了3.8倍（每秒183个词元 vs 48个词元），因为它支持并行词元生成。这种高吞吐量对于实际应用场景具有重要意义。
扩散模型的真实性突破： 更令人振奋的是，扩散模型在事实性方面表现卓越，在TruthfulQA测试中获得了49.27%的最高分，这是所有参评架构中的最佳成绩。这意味着它们在避免生成虚假信息（即“幻觉”）方面有着独特的优势。
AR转扩散的高效路径： 将自回归（AR）模型转化为扩散模型，仅需额外训练1亿个词元，效率比从头训练高出10倍。这为研究者和开发者提供了一条成本效益极高的创新途径。

所有这些发现最终汇聚成一个具体的成果——Dhara-70M模型。这款模型在保持了较高准确率的同时，实现了3.8倍的吞吐量提升和卓越的事实性表现。这无疑是小型语言模型领域的一大步，为未来的应用创新开启了更多可能性。
dataset_composition

小型模型架构设计的核心问题与实验的严谨性

正如前文所述，在固定了最优数据集配方之后，我们面临的核心问题便是：模型架构本身，对于小型模型的表现到底有多大影响？传统的GPT-2模型，其标准配置是12层，隐藏层维度为768。但这一设计诞生于2019年，主要针对参数量约1.24亿的模型。那么，对于我们今天所关注的、参数量仅为7000万且经过10亿词元训练的小型模型来说，这一传统配置是否依然是最优选择？

更为重要的是，近年来人工智能领域涌现出了诸多新型架构，例如美国Meta公司的LLaMA系列、谷歌的Gemma系列、Mixture of Experts（MoE）混合专家模型，乃至新兴的扩散语言模型。这些新颖的设计是否能在小型模型上发挥其独特的优势？为了系统性地探索模型架构设计的广阔空间，我们为此搭建了一个极其严谨的实验平台。

为了确保实验结果的客观性和准确性，我们将所有可能影响模型性能的因素，除了模型架构本身之外，全部固定。这包括：总参数量控制在约7000万左右（实际范围在6200万至7700万之间），所有模型均经过10亿个词元的训练，采用我们之前确定的“50% FinePDFs + 30% DCLM + 20% FineWeb-Edu”最优数据集，并在单一美国英伟达（NVIDIA）A40图形处理器上进行，计算精度统一为BF16，优化器选用AdamW并配合余弦学习率调度策略。这样的设置确保了所有对比结果都是针对架构差异的真实反映。

探索深度与宽度：小型模型架构的“骨肉”之争

在模型设计中，层数（深度）和隐藏层维度（宽度）是两个最基本的参数。它们共同决定了模型的“体型”和容量。我们首先深入研究了这两种因素对模型性能的影响。通过训练7个不同深度与宽度比例的GPT-2变体，它们都保持着大致相同的7000万参数量，但内部结构却千差万别。

例如，我们测试了只有4层但隐藏层维度极宽（768）的“超宽”模型，也尝试了多达64层但隐藏层维度极窄（256）的“极深窄”模型，以及介于两者之间的多种配置。我们原以为会看到一个平滑的性能曲线，即深度和宽度之间存在某种连续的权衡关系。然而，实验结果却给我们带来了第一个意想不到的发现。

发现一：两极分化的性能表现

出乎我们预料的是，模型性能并未呈现出平滑的连续变化，而是出现了明显的两极分化。就像一道分水岭，模型要么能达到高水平表现，要么就只能停留在较低的水平。

我们观察到，模型清晰地分为两个性能层级：一部分模型能达到约38%的平均分数，而另一部分则徘徊在约32%左右。这两个层级之间存在着显著的性能差距，高达6个百分点以上，而同一层级内部的性能差异却非常小，仅在0.5%左右。这种“双峰”分布模式非常引人注目，它意味着模型的设计成功与否，可能存在一个非黑即白的关键点，而不是一个渐进优化的过程。
two_tier_discovery

发现二：隐藏层维度的“硬性门槛”

为何有些配置能跻身高性能行列，而另一些则表现平平？我们深入分析数据后，找到了一个决定性因素：隐藏层维度（hidden_size）必须大于等于512。

这就像一个“魔力数字”：如果隐藏层维度能达到或超过512，模型就有很大机会进入高性能区域。例如，标准的12层模型，其隐藏层维度为512，表现出色。然而，一些层数较多但隐藏层维度低于512的模型，如16层（448维度）、24层（384维度）和48层（320维度）的模型，都跌入了低性能区域。这表明，仅仅增加层数并不能弥补隐藏层维度不足带来的短板。

但凡事总有例外，我们发现两个特殊情况：32层（384维度）和64层（256维度）的模型，尽管它们的隐藏层维度低于512，却依然能够达到高性能。这说明，当模型的层数达到某种“恰到好处”的深度（比如32层这个“金发姑娘”深度），或者非常“极致”的深度（比如64层），它们能够以深度弥补宽度的不足。而介于这两者之间的，且隐藏层维度又低于阈值的模型，则陷入了性能的“死区”。
hidden_threshold

发现三：32层是小型模型的“金发姑娘”深度

在众多的尝试中，32层配置的模型脱颖而出，取得了38.50%的最高平均分，甚至略微超越了我们之前研究中表现优秀的12层标准设计。这一发现尤为重要，它为小型语言模型的架构设计提供了明确的指导。

进一步分析不同基准测试的表现，我们发现32层模型在7项基准测试中的5项上取得了胜利。特别是在WinoGrande测试中，其性能提升了1.18%，这可能表明更深层次的架构有助于模型进行更复杂的组合推理，更好地理解代词指代等语言结构。在MMLU（大规模多任务语言理解）测试中，32层模型也提升了1.66%，这说明增加层数有助于模型更好地保留和利用学术知识。
depth_vs_performance

架构家族大比拼：技术创新在小型模型上的体现

在明确了深度和宽度对GPT-2模型的重要性后，我们将目光投向更广阔的领域——12种不同的架构家族。我们希望了解，在最优的32层深度基础上，各种前沿架构在7000万参数量的小型模型上能有怎样的表现。

我们测试的架构种类繁多，包括经典的GPT-2、现代化的美国LLaMA3和中国Qwen3（它们都采用了旋转位置编码RoPE、均方根归一化RMSNorm和门控注意力GQA等先进技术）、谷歌的Gemma3（引入了滑动窗口注意力）、混合卷积和注意力机制的LFM2、创新性的扩散语言模型dLLM、美国MoE混合专家模型、以及带有记忆增强机制的Titans-MAC等。这些模型的参数量都控制在7000万左右，确保了公平的对比。

发现四：小型模型中架构选择的“同质化”效应

一个令人惊讶的结论是：所有12种架构家族在基准测试中的平均准确率表现惊人地相似。无论是高性能的自回归（AR）模型，还是新兴的扩散模型，它们的平均分数都只在很小的范围内波动。

具体来说，自回归模型（如LLaMA3-Canon）表现最佳，平均分约为33.22%，而GPT-2（32层）也达到了33.18%，两者差距微乎其微，几乎可以认为是统计噪声。这表明，为70亿甚至千亿参数量设计的新型架构改进（如RMSNorm、RoPE、GQA），在7000万参数量这个级别上，并未带来显著的性能提升。新媒网跨境了解到，这可能意味着对于小型模型，更基础的架构特性和训练数据质量，其影响力甚至超过了具体的“现代化”模块设计。

发现五：扩散模型以速度换精度，效率提升3.8倍

尽管在平均准确率上，各种架构表现出高度同质化，但当我们审视模型的推理特性时，差异就显现出来了。扩散模型（dLLM和Dhara）在吞吐量（Tokens/秒）方面展现出压倒性优势。
throughput_vs_accuracy

与传统的自回归模型（如美国Meta的LLaMA3和GPT-2）相比，扩散模型的吞吐量提升了高达3.8倍（每秒183个词元对比48个词元）。这意味着在处理相同数量的文本时，扩散模型可以显著缩短等待时间，极大地提升了效率。当然，这种高速也伴随着一定的权衡：扩散模型的平均准确率略低于自回归模型（约31.85% vs 33.18%），同时由于其双向注意力机制，内存占用也会略高（1.6倍）。然而，对于需要大规模并行处理和快速响应的应用场景，这种速度上的巨大优势无疑是极具吸引力的。

发现六：扩散模型在事实性方面的卓越表现

在众多发现中，最令人振奋的一点是，扩散模型在TruthfulQA测试中取得了所有架构中的最高分。这一测试专门评估模型生成内容的真实性，旨在发现模型生成“幻觉”的倾向。
task_breakdown

具体来看，dLLM-Canon模型以49.27%的TruthfulQA得分位居榜首，而传统的GPT-2（32层）模型仅为45.83%。新媒网跨境认为，扩散模型在事实性方面的出色表现，可能源于其独特的生成机制：

双向注意力机制： 与自回归模型单向生成不同，扩散模型在生成每个词元时可以考虑其上下文中的所有信息，从而获得更全面的语境理解。
迭代精炼过程： 扩散模型通过多次去噪步骤逐步完善生成内容，这允许模型在生成过程中不断“修正”其初步预测，减少错误累积。
非自回归生成： 传统自回归模型容易出现“错误滚雪球”效应，即早期的错误预测可能导致后续生成内容的全面偏离。扩散模型的非自回归特性则能有效缓解这一问题，使其生成的文本更具一致性和真实性。

发现七：Canon层对事实性的积极影响

“语言模型物理学”中提出的Canon层（一种深度因果卷积）也展现了其独特的价值。它能够在仅增加0.13%参数量的情况下，显著提升模型的事实性表现。

例如，在美国LLaMA3模型中加入Canon层后，TruthfulQA分数提升了1个百分点；而在扩散模型dLLM中，这一提升更为显著，达到了2.19个百分点。这表明，即使是微小的架构调整，只要设计得当，也能在关键性能指标上带来有意义的改进，尤其是在提升内容的真实性方面。

发现八：WSD转换方法带来10倍训练效率提升

在模型训练的效率方面，我们也取得了突破性进展。我们发现，利用LlaDA 2.0论文中提出的“预热-稳定-衰减”（Warmup-Stable-Decay, WSD）方法，可以将现有的自回归模型高效地转化为扩散模型，其训练效率比从头开始训练高出10倍。

WSD方法的精髓在于，它通过渐进式地训练自回归模型来适应扩散目标。在“预热”阶段，模型逐步学习处理不同大小的“块”，逐渐适应扩散任务；随后进入“稳定”阶段，进行全面的掩码扩散语言模型（MDLM）训练。
wsd_efficiency

这种转换方式带来的效率提升是巨大的。例如，从头训练一个扩散模型需要10亿词元和18小时的美国英伟达A40 GPU时间，成本约为36美元；而通过WSD方法进行转换，仅需1亿词元和1.8小时的GPU时间，成本降至约4美元。这意味着节省了高达32美元的成本和90%的训练时间。更令人惊喜的是，WSD转换不仅在效率上遥遥领先，在某些基准测试上，甚至比从头训练的模型表现更好，这表明自回归模型的初始化能够为扩散模型提供有益的先验知识，从而在事实性等任务中发挥积极作用。

Dhara-70M：集大成者的小型高效语言模型

综合以上所有令人振奋的发现，我们隆重推出Dhara-70M模型。这款模型代表了小型语言模型设计和训练的最新成果。我们首先选择了表现最优的自回归架构——LLaMA3-Canon，然后利用高效的WSD方法将其转换为扩散模型。

Dhara-70M完美结合了两种方法的优点：它既继承了自回归模型强大的预训练初始化能力，又融合了扩散模型在高吞吐量和事实性方面的独特优势。这使其成为一个“鱼和熊掌兼得”的解决方案，为小型模型在实际应用中的表现树立了新的标杆。

Dhara-70M拥有7134万参数，采用我们发现的“金发姑娘”32层深度和384隐藏层维度。它整合了旋转位置编码（RoPE）、均方根归一化（RMSNorm）、门控注意力（GQA）等现代化特性，并加入了对事实性有积极影响的Canon层。其生成方式为扩散式（并行词元生成），训练过程则通过LLaMA3-Canon（10亿词元）到扩散模型的WSD转换（1亿词元）实现。

在基准测试中，Dhara-70M展现了其独特的性能平衡。尽管在某些传统任务上略低于GPT-2（32L），但它在TruthfulQA这类事实性测试中表现优异，超越了GPT-2，这表明其在内容真实性方面具有显著优势。

高效与均衡：Dhara-70M的推理性能

在实际应用中，模型的推理性能至关重要。Dhara-70M在这方面也交出了一份令人满意的答卷。

指标	Dhara-70M	GPT-2 (32L)	优势
首词生成时间	35.5 毫秒	~25 毫秒	慢 1.4 倍
吞吐量	183.5 词元/秒	~48 词元/秒	快 3.8 倍
峰值内存占用	0.24 GB	0.15 GB	高 1.6 倍

从数据中我们可以看到，Dhara-70M在生成第一个词元的时间上略慢于GPT-2，这可能与扩散模型的迭代过程有关。然而，一旦启动，其并行生成能力便发挥得淋漓尽致，吞吐量高达每秒183.5个词元，是传统GPT-2的3.8倍。这意味着在处理大量请求或生成长文本时，Dhara-70M能够提供远超传统模型的效率。尽管其峰值内存占用略高，但在高效率和高真实性面前，这种权衡是完全值得的。

开启小型语言模型新篇章：快速上手Dhara-70M

为了让更多开发者和研究者能够体验Dhara-70M的强大功能，我们也在美国Hugging Face平台上提供了模型的快速上手代码示例。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("codelion/dhara-70m")
model = AutoModelForCausalLM.from_pretrained(
    "codelion/dhara-70m",
    trust_remote_code=True,
    torch_dtype=torch.bfloat16
)

# 移动到GPU（如果可用）
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)

# 生成文本示例
prompt = "The future of artificial intelligence is"
inputs = tokenizer(prompt, return_tensors="pt").to(device)
outputs = model.generate(
    inputs.input_ids,
    max_new_tokens=50,
    temperature=0.1,
    top_p=0.5,
    top_k=5,
    repetition_penalty=1.8,
    do_sample=True,
    pad_token_id=0
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

# 示例输出：The future of artificial intelligence is a big challenge. This world has the potential to improve, but this time we have no other than "theworld." The next generation will be more exciting and its very much important for our society's abilityto develop its

# 适用于高吞吐量批量处理：
# 批量生成以实现最大吞吐量
prompts = [
    "The future of artificial intelligence is",
    "The human brain is capable of",
    "Science has shown that",
    "Technology continues to evolve"
]
inputs = tokenizer(prompts, return_tensors="pt", padding=True).to(device)
outputs = model.generate(
    inputs.input_ids,
    attention_mask=inputs.attention_mask,
    max_new_tokens=50,
    temperature=0.1,
    top_p=0.5,
    top_k=5,
    repetition_penalty=1.8,
    do_sample=True,
    pad_token_id=0
)
for i, output in enumerate(outputs):
    print(f"Output {i+1}: {tokenizer.decode(output, skip_special_tokens=True)}")

通过以上代码，大家可以轻松加载Dhara-70M模型，并利用其强大的文本生成能力。无论是单次生成还是高吞吐量的批量处理，Dhara-70M都能提供高效稳定的服务，为各类创新应用提供强劲的语言智能支持。

核心洞察与未来展望

通过对19种模型配置、12种架构家族的深入研究，我们为小型语言模型的发展积累了宝贵的经验。新媒网跨境认为，这些核心洞察，无疑将指引行业迈向更加高效、精准、普惠的未来：

规模并非决定一切： 在小型模型领域，具体架构的选择，其重要性可能不如我们想象的那么高。无论是美国Meta的LLaMA3、中国清华大学和阿里系的Qwen3还是谷歌的Gemma3，在7000万参数量级，它们的性能差异微乎其微。这表明对于小模型，更基础的训练策略和数据质量可能更为关键。
深度与宽度的精妙平衡： 模型的层数和隐藏层维度之间的比例至关重要。设计不当可能导致性能大幅下滑，从38%的高水平直接跌至32%的低谷。
隐藏层维度的“分水岭”： 隐藏层维度512是一个重要的性能门槛。低于这个阈值，模型很可能陷入性能的“死区”，除非通过极其特殊的层数设计（如32层或64层）来弥补。
32层的黄金比例： 对于7000万参数量的小型模型，32层的深度结合384的隐藏层维度，是一个“恰到好处”的设计，其性能略优于传统的12层架构。
扩散模型的事实性优势： 尽管在某些通用任务上平均分稍低，但扩散模型在TruthfulQA测试中表现出众，其生成内容的真实性领先于其他所有模型。这为解决大型语言模型普遍存在的“幻觉”问题提供了新思路。
3.8倍的吞吐量突破： 扩散模型在批处理工作负载中展现出显著的吞吐量优势，能够实现高达3.8倍的速度提升，这对于追求效率的实际应用场景具有重要价值。
WSD转换的高效性： 将自回归模型转化为扩散模型，仅需1亿词元的额外训练，相比从头训练，效率提升了惊人的10倍。这大大降低了研发成本和时间。
Canon层的增益： 简单的深度因果卷积（Canon层），仅增加极少量参数，却能有效提升TruthfulQA分数，增强模型的事实性。

对于正在构建小型语言模型的实践者而言，我们的建议是：首先采用我们之前研究发现的“50-30-20”数据配方，然后选择32层“金发姑娘”架构。如果你的应用场景对处理速度和内容真实性有较高要求，那么不妨大胆尝试扩散模型，它将为你的产品带来意想不到的惊喜和竞争力。

展望未来，随着小型语言模型在端侧设备、嵌入式系统和特定垂直领域的广泛应用，对高效、低成本、高真实性的模型需求将持续增长。我们相信，Dhara-70M及其背后的研究成果，将为这些领域的技术创新提供坚实的基础，助力中国人工智能产业的健康快速发展。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/mini-lm-32l-38x-speed-90-off-hallu-fix.html