HBM内存瓶颈破局！DeepSeek Engram：中国AI算力成本大降！

当今世界，人工智能（AI）技术浪潮汹涌，正在以前所未有的速度重塑各行各业。从智能客服到自动驾驶，从科研探索到内容创作，AI的触角正伸向我们生活的方方面面。然而，在这场技术变革的背后，一个日益凸显的挑战摆在所有AI开发者面前，那就是对高性能计算资源，尤其是高带宽内存（HBM）的巨大需求。长期以来，HBM作为AI模型高效运行的关键，其供应紧张和成本高昂一直是制约AI规模化发展的重要瓶颈。正是在这样的背景下，各种旨在优化内存使用、提升计算效率的创新方案，成为业界关注的焦点。

近日，中国AI企业DeepSeek与北京大学的合作研究取得了一项突破性进展，他们推出了一种名为Engram的全新训练方法。这项创新技术旨在解耦AI模型中的内存存储与计算过程，为缓解当前AI领域面临的“内存危机”提供了新的思路和解决方案。
A person's hand using DeepSeek on their mobile phone

传统AI模型面临的内存挑战

传统的AI大语言模型在知识检索和基础计算中，对高带宽内存（HBM）有着极高的依赖。这种依赖不仅带来了巨大的硬件成本，更在性能上形成了一个明显的瓶颈。我们可以回顾一下过去几年AI产业的发展历程：在AI技术高速发展的背景下，记忆体（尤其是高带宽内存HBM）的需求呈现爆发式增长。DRAM价格曾因AI需求激增在短时间内大幅上涨，甚至出现十周内翻五倍的情况，这无疑为整个行业敲响了警钟，也凸显了AI内存瓶颈的严峻性。这种现象不仅推高了AI算力成本，也减缓了AI模型的迭代速度和普惠应用进程。

造成这一瓶颈的原因在于，现有的大模型在处理信息时，往往需要将大量知识数据常驻于昂贵的HBM中，以便进行快速的查询和计算。研究人员发现，许多模型在处理这些知识时，耗费了大量的序列深度用于相对琐碎的操作，而这些资源本可以用于更高层次的推理任务。如何更智能地管理和利用有限的高速内存资源，成为AI技术持续发展亟待解决的关键问题。

Engram：解耦计算与内存的新范式

DeepSeek与北京大学的Engram方法正是针对这一痛点而生。其核心思想在于将静态内存的存储与动态的计算过程进行分离，从而大幅提高大型AI模型的效率。Engram允许模型通过高效的“查找”机制，获取必要的静态信息，而无需占用宝贵的GPU内存，从而释放出更多容量用于执行更复杂的推理任务。

Engram的技术亮点主要体现在以下几个方面：

静态知识的解耦检索： Engram通过哈希N-gram（hashed N-grams）的方式进行知识检索，实现了静态内存访问与当前上下文的独立性。这意味着模型可以在需要时按需获取预存储的知识片段，而无需将所有潜在知识都加载到高速内存中。
上下文感知门控机制： 检索到的信息会通过一个上下文感知的门控机制进行调整，确保这些外部知识能够与模型的隐性状态（hidden state）保持一致，从而精确地融入当前的推理过程。
长上下文处理能力： 这一设计使得模型能够更高效地处理长上下文输入，对于处理复杂文档、代码或多轮对话等场景具有显著优势。
异步预取支持： Engram还支持跨多个GPU的异步预取功能，这意味着模型可以在计算进行的同时，提前获取后续可能需要的数据，从而将性能开销降到最低。

严谨验证与显著性能提升

这项创新的有效性并非纸上谈兵。DeepSeek研究团队已在一个拥有270亿参数的大型模型上对Engram系统进行了严格测试。结果显示，该系统在多项行业标准基准测试中均展现出可衡量的性能提升。这不仅证明了Engram在理论上的可行性，更验证了其在实际应用中的巨大潜力。

更重要的是，Engram方法与当前业界其他硬件高效方案能够形成互补。例如，与来自中国台湾地区的Phison（群联电子）等公司提供的AI推理加速器结合，可以构建出更为经济高效的内存扩展方案。Phison通过使用固态硬盘（SSD）来扩展总内存容量，为大型AI模型（如Engram或专家混合模型Mixture-of-Experts, MoE）提供了成本效益更高的存储选择。这两种方法相结合，使得AI系统能够在优化快速内存使用的同时，经济地增加整体内存容量，为AI算力基础设施的建设提供了更多可能性。

Engram的扩展性与架构优势

Engram在设计之初就考虑了模型的扩展性。它将静态模式存储与动态计算分离开来，在不增加浮点运算次数（FLOPs）或参数计数的前提下，增强了Transformer骨干网络的性能。

为了进一步优化参数分配，DeepSeek团队还正式提出了一种U形扩展规则。该规则用于优化MoE条件计算模块与Engram内存模块之间的参数分配。测试结果表明，将大约20%-25%的稀疏参数预算重新分配给Engram，可以比纯MoE模型取得更好的性能表现，并且在不同规模的模型上都能保持稳定的增益。

Engram的内存插槽扩展特性，能在不增加额外计算成本的情况下带来可预测的性能提升。这证实了条件内存作为稀疏模型独立扩展轴的可行性。此外，Engram的确定性检索机制使得内存容量可以随着多个GPU的增加而线性扩展，同时支持推理过程中的异步预取。

通过将静态知识重建从模型的较低层卸载，Engram能够让注意力机制更专注于全局上下文信息，从而提高整体推理效率。对常用嵌入（embeddings）的分层缓存进一步提升了效率。最关键的是，Engram模块能够与现有的GPU和系统内存架构协同工作，有望避免昂贵的HBM升级需求，这对于全球，尤其是中国等在HBM获取方面与三星、SK海力士和美光等国际领先企业存在一定差距的地区而言，具有重要的战略意义。

对AI基础设施的深远影响与中国机遇

Engram的早期验证结果表明，该技术有望在扩展模型参数规模和推理能力的同时，更高效地管理内存需求。这不仅可能缓解AI基础设施对昂贵内存硬件的压力，甚至有望平抑DDR5 DRAM价格的剧烈波动，为整个AI产业带来更稳定的发展环境。

对于中国AI行业而言，Engram这类自主创新技术的重要性不言而喻。在当前国际竞争日益激烈、技术壁垒时有出现的背景下，突破关键核心技术，实现内存管理和计算效率的创新，对于确保中国AI产业的持续健康发展至关重要。这不仅能够降低国内AI研发和部署的成本，提升竞争力，更有助于我们在全球AI格局中占据更有利的位置。通过在技术上实现突破，我们可以更好地应对外部挑战，推动AI技术在中国各行各业的深度融合与应用。

展望未来，随着AI模型规模的持续扩大和应用场景的日益丰富，对内存管理技术的要求也将越来越高。Engram这类创新为我们描绘了一幅令人鼓舞的未来图景：一个更加高效、经济、可持续的AI计算生态。

作为深耕于中国跨境行业的从业者，我们深知技术创新对于全球市场竞争力的决定性作用。Engram的出现，不仅是技术层面的突破，更是对AI产业发展模式的一次深刻思考。我们有理由相信，在自主创新的道路上，中国AI企业将持续贡献智慧与力量，为全球人工智能的进步注入新的活力。国内相关的从业人员应密切关注此类前沿技术动态，积极探索其在自身业务中的应用潜力，抓住技术变革带来的新机遇。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/engram-cracks-hbm-china-ai-cost-cut.html