英伟达Grace CPU太强了！72核单芯片，能效3倍碾压x86！

在数字化浪潮汹涌而来的今天，数据中心作为支撑数字经济发展的核心基础设施，正面临着前所未有的挑战与机遇。随着人工智能、大数据分析以及高性能计算等领域的快速崛起，对算力、存储和网络带宽的需求呈现爆炸式增长。传统的计算架构在应对这些新型、复杂且数据密集型的工作负载时，逐渐显露出其瓶颈。如何在有限的空间和能源消耗下，提供更强大的计算能力，成为了业界关注的焦点。

正是在这样的背景下，新媒网跨境获悉，英伟达（NVIDIA）推出了一款突破性的处理器——Grace CPU，它以其独特的架构设计，为现代数据中心带来了高效能、高带宽的全新解决方案，也为未来计算奠定了坚实基础。

Grace CPU的核心亮点在于其高度集成的单片式架构。它将72个先进的Arm Neoverse核心、一个统一的网状互连（SCF）、114MB的统一三级缓存、LPDDR5X高速内存以及900 GB/s的NVLink-C2C高速互连技术，全部整合在单一芯片上。这种设计理念从根本上消除了传统芯片组架构中常见的非统一内存访问（NUMA）边界问题。在传统的服务器处理器设计中，为了提升核心数量，往往会采用多个芯片互联的方式，这可能导致不同核心访问内存时存在延迟差异，从而影响整体性能的一致性和可预测性。

而Grace CPU的单片式设计则确保了所有核心都能以均一的低延迟访问内存，有效提升了线程级别的性能表现。这种统一的架构，不仅极大地简化了软件开发和应用的扩展，还避免了跨NUMA区域的数据传输所带来的性能损耗。据技术测试数据显示，Grace CPU在数据分析、高性能计算（HPC）和云工作负载中，能够提供比某些x86替代方案（如AMD Epyc Turin）高出1.8倍的每核心内存带宽，以及高达3倍的每瓦性能。这意味着在相同能耗下，Grace能够完成更多的工作，这对于追求极致效率和绿色计算的数据中心而言，无疑是巨大的福音。

图1. 英伟达可伸缩一致性互连（SCF）在单片式芯片中连接Neoverse核心与内存子系统

统一NUMA设计：性能与效率的基石

Grace CPU的独特之处在于其可伸缩一致性互连（SCF），它将所有72个Arm Neoverse核心整合为一个高性能的统一域。在这个域中，每个核心都能以相同的条件访问内存，无需担心传统多芯片设计中存在的NUMA（非统一内存访问）边界问题。这种均一的内存访问延迟，对于确保不同线程和工作负载之间性能的一致性至关重要，也极大地简化了软件开发人员的工作，让他们能够更专注于优化应用逻辑，而非费力地规避硬件架构带来的限制。

在云环境中，我们经常看到终端用户部署大量小型虚拟机（VMs）。在芯片组架构中，每个VM可能只能访问其所属芯片上的内存子系统，导致内存资源碎片化。而Grace的统一架构则允许每个虚拟机都能无缝访问整个内存子系统，这无疑是一个显著的优势。传统的多芯片架构往往需要工程师进行精细的“核心绑定”（core pinning）操作，以维持性能的一致性，这不仅增加了部署的复杂性，而且在资源利用不足时，为了激活多个芯片组还会额外消耗电力。Grace CPU通过消除这些障碍，提供了更高效、更易于管理的计算环境，助力数据中心实现更优的资源调度和更低的运营成本。

图1清晰地展示了英伟达SCF作为连接所有核心、大容量统一三级缓存、LPDDR5X内存以及NVLink-C2C的骨干网络，它们在一个单片式芯片上协同工作。图中流动的光束象征着数据在网状结构中的无缝移动，有效避免了传统芯片组设计中可能出现的性能瓶颈。这种设计理念体现了对高性能、高效率和可扩展性的不懈追求。

核心数量与内存带宽的黄金比例

对于当今的数据密集型工作负载而言，如数据分析、ETL（提取、转换、加载）以及高性能计算，它们需要处理海量数据，并在核心、缓存和内存之间进行频繁的数据交换。因此，处理器核心数量与内存带宽之间，必须保持一个平衡且高效的比例。Grace CPU在这方面做出了卓越的优化，通过其巨大的统一网状结构，实现了数据的快速流转。

图2中的STREAM基准测试结果有力地证明了Grace在内存带宽方面的优势。STREAM基准测试专为评估内存带宽性能而设计，它会故意超出CPU缓存容量，迫使系统直接从内存进行大规模、连续的数据传输。测试结果显示，Grace CPU在总内存带宽上超越了AMD Turin。但更值得关注的是其在带宽效率上的表现。在所有核心满负荷运行时，Grace提供了更高的每核心带宽，这对于下一代数据驱动型计算至关重要。Grace CPU的每核心内存带宽比同类SoC高出1.8倍，这意味着每个核心都能够通过其网状结构和内存子系统，同时高效地处理大量数据流，从而极大地提升了整体系统的处理能力。

图2. Grace CPU与x86服务器相比，每核心内存带宽可提升高达1.8倍

Grace在大数据工作负载中的卓越表现

Grace CPU统一的网状结构和更高的每核心内存带宽，在实际的大数据分析工作负载中展现出显著优势。以PageRank图算法为例，它是图算法平台基准测试套件（GAPBS）的重要组成部分，用于评估系统在图分析和大数据处理中的性能。PageRank算法旨在迭代计算大规模图中每个节点的重要性评分，模拟现实世界中网站排名或社交网络分析等过程。这项基准测试不仅考验着核心间的通信效率，更对系统有效处理大规模随机、分散内存访问模式的能力提出了严峻挑战。

图3展示了PageRank算法在Grace CPU和AMD Epyc Turin上运行时的性能对比，该测试在核心0到15上顺序执行。Grace CPU在扩展核心数量时，PageRank的关键指标——每秒遍历的边数（TEPS）——表现出极佳的线性扩展性。这得益于其统一的SCF架构，它确保了数据在核心、缓存和内存子系统之间能够无缝传输。

图3. 英伟达Grace CPU为数据分析工作负载提供一致的性能扩展

相比之下，基于芯片组的x86设计由于其分散的网状结构和芯片间的高延迟，在性能扩展上往往表现出不均衡和受限的特点。虽然通过精细的核心绑定操作，可以在芯片组架构上获得一定的性能提升，但对于大数据分析这类工作负载而言，这种做法往往适得其反，并在实际部署中增加了额外的工程开销。在云环境中，当处理小型虚拟机时，这种问题会进一步恶化，因为此时可能无法灵活分配核心资源。Grace CPU的单片式设计有效规避了这些问题，提供了更为稳定和高效的解决方案。

Grace在数据分析和HPC工作负载中全面超越x86 CPU

Grace是首款集成了高性能LPDDR5X内存和全相干CPU-GPU互连（NVLink-C2C）的服务器CPU，其互连速度高达900 GB/s。这一创新组合为下一代人工智能“数据工厂”和大数据工作负载提供了强劲动力。它不仅仅是一颗处理器，更是一个为未来计算奠定的先进平台。

图4通过双路系统的数据，展示了Grace与AMD Epyc Turin在能效比（性能每瓦）方面的对比。结果令人瞩目：NVIDIA Grace在关键的数据分析工作（包括联机事务处理OLAP、图分析和ETL）以及高性能计算工作（如计算流体力学CFD、天气预报和分子动力学）中，能够提供高达3倍的每瓦性能提升。这意味着在相同的能源消耗下，Grace能够完成三倍的工作量，这对于数据中心而言，是降低运营成本、提高整体吞吐量的关键。在当前能源成本不断上升、绿色计算理念深入人心的背景下，Grace CPU的这种能效优势，无疑将为数据中心带来显著的经济效益和社会效益。

图4. 英伟达Grace超级芯片比双路x86服务器提供高达3倍的每瓦性能

Grace：在低功耗下依然提供高性能

Grace CPU能效架构的一个显著优势，在于其能够在较低的功耗限制下依然保持高水平的性能。在数据中心，为了降低总体的机架能耗和散热需求，对CPU模块设置功耗上限已是普遍做法。随着数据中心对计算密度和能源预算的追求日益严格，能源效率的重要性也愈发凸显。

图5展示了Grace在不同功耗限制下相对于其250W基准性能的表现。令人惊喜的是，在200W功耗下，Grace依然能维持90%以上的性能；而在150W功耗下，其性能仍能达到基准的约80%。这意味着数据中心运营商可以在显著节约能源的同时，将性能损失降到最低。这种能力使得运营商能够根据实际需求灵活调整功耗策略，无需在性能和能耗之间进行痛苦的权衡。在功耗受限的环境下，Grace能够最大化机架的计算密度，同时降低散热成本，这对于大规模部署和边缘计算等场景具有重要意义。
Bar chart showing relative Grace CPU performance compared to 250W at 3 power-capped values: 250W, 200W, and 150W. At 150W, Grace delivers full performance for Snappy and HiBench and 80% of peak performance for Protobufs.

图5. Grace CPU在降低功耗下的性能表现

Grace之所以能达到这种平衡，是LPDDR5X内存、高能效Arm Neoverse核心的单片式SoC设计以及卓越的散热管理共同作用的结果。这些先进技术有效减少了数据传输的开销，从而实现了出色的每瓦性能。最终，我们看到的是一款在更低功耗下运行更快、性能更强的CPU。即使在功耗受限的条件下，它也能保持足够的性能余量，使其成为超大规模部署、高性能边缘计算、存储、内容分发网络（CDN）、高性能计算（HPC）以及其他功耗敏感型应用场景的理想选择。

驱动下一代“数据工厂”

Grace CPU奠定了英伟达CPU路线图的基石，它在单NUMA设计中展现出卓越的性能、能效、一致的核心扩展性以及优化的网状结构和内存带宽，完美适应了多样化的服务器部署需求。Grace的出现，不仅仅是技术上的进步，更是对未来计算模式的一种预见和引领。

展望未来，我们对即将推出的下一代服务器CPU Vera充满期待。Vera将搭载88个定制化的Arm核心，支持多线程处理，拥有更大的网状结构、1.2TB/s的内存带宽和1.8 TB/s的NVLink-C2C高速互连。这些升级将进一步推动“数据工厂”以及人工智能工作负载的发展，满足未来高吞吐量、高能效的计算需求。

新媒网跨境认为，Grace CPU的问世，不仅代表着英伟达在CPU领域的一次重要突破，也预示着数据中心和高性能计算领域将迎来一场深刻的变革。它所倡导的单片式、高集成、高能效的设计理念，将为全球数字经济的持续发展注入新的活力，助力构建一个更加高效、绿色、智能的未来计算生态。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/grace-cpu-72-core-chip-3x-eff-beats-x86.html