欧美2025年AI数据中心SDC顽疾揭秘巨头联手破局!

2026-01-04AI工具

欧美2025年AI数据中心SDC顽疾揭秘巨头联手破局!

现代半导体设计领域,尤其是在人工智能(AI)数据中心等高性能计算环境中,无声数据损坏(Silent Data Corruption, SDC) 构成了一项严峻的挑战。2025年,在台积电(TSMC)OIP大会上,博通(Broadcom Inc.)与西门子EDA(Siemens EDA)共同发表的一份报告中指出,SDC 指的是硬件缺陷在不触发可检测错误的情况下,导致计算结果出现偏差,进而引发细微但破坏性极大的故障。
Siemens Broadcom TSMC OIP2025 SemiWiki Silent Data Corruption (SDC)

新媒网跨境 了解到,在一个真实的客户实验中,一项为期54天的训练任务在16384个图形处理器(GPU)上运行,共报告了419次意外中断,其中6次被直接归因于SDC。尽管这类事件较为罕见,仅占总故障的约1.4%,但它们能够扰乱AI模型训练等关键任务的运行,在这些对可靠性要求极高的场景中,其影响不容忽视。该报告强调,随着芯片制造工艺节点不断缩小和芯片复杂度的日益增加,SDC已成为一个普遍存在的行业问题。那些在制造测试阶段未能被检测出的缺陷,可能由于老化、电压波动或热应力等因素,在使用过程中逐渐显现,最终导致无声的数据损坏。

传统的测试方法在这种情况下显得力不从心,因为它们通常需要将设备从系统中移除才能进行诊断,这对于已部署的系统而言极不切实际,尤其是在需要持续运行的AI数据中心。为应对这一挑战,博通与西门子EDA的合作团队提出了一种在系统内进行测试的能力,允许在不中断系统运行的情况下进行周期性检查。通过在现场直接运行自动测试图样生成(ATPG)模式,可以有效检测出可能引发SDC的潜在缺陷,从而确保系统的完整性。对于AI应用而言,这意味着将测试套件集成到系统中,并定期执行,以避免代价高昂的运行中断。此外,针对SDC量身定制的新测试模式可以远程部署,在无需物理干预的情况下,延长设备的使用寿命。

西门子推出的In-System Test(IST)解决方案是实现这一目标的关键技术。该解决方案基于其流式扫描网络(Streaming Scan Network, SSN)架构构建,IST能够与嵌入式确定性测试(Embedded Deterministic Test, EDT)结构有效连接,从而高效地传输ATPG测试图样。IST控制器负责驱动SSN的并行接口,通过APB或AXI等高速协议支持高带宽数据传输。在博通的实际部署中,IST针对一个基于EDT的设计进行了适配,并在芯片层面引入了流式扫描主机(Streaming Scan Host, SSH)。IST控制器位于芯片的顶层,通过片上的中央处理器(CPU)将测试图样加载到本地SRAM中。原用于生产测试的块级EDT图样被重新定位到IST的输入端,这使得系统可以在保持其他功能块正常运行的同时,对特定目标块进行选择性测试,显著提高了测试的灵活性和效率。

IST的实际实施过程中,也暴露出一些设计挑战。其中,功能隔离是至关重要的一个方面:“功能”模块(例如CPU子系统)必须保持活跃状态,以加载和执行IST操作,而“目标”模块则需要切换到扫描模式进行测试。这就要求对扫描输入进行精确隔离,以防止不同模式间的相互干扰。所有可能扰乱IST运行的功能模块输入,例如中断信号或AXI信号,都必须保持在“静默”状态。同时,目标模块在数据捕获期间输出可能产生的信号波动,需要通过门控逻辑进行阻断,以避免噪声传播到系统其他部分。博通通过插入隔离模块并启用测试数据寄存器(Test Data Registers)进行控制,成功解决了这一挑战。

时钟分割是博通在实施过程中遇到的另一个复杂难题。由于采用了定制化的时钟方案,博通的方法论将片上时钟控制器(On-Chip Clock controllers, OCC)放置在芯片的顶层。这意味着功能模块需要自由运行的时钟以维持其正常操作,而目标测试模块则需要激活OCC才能进行扫描移位。为了解决这一矛盾,博通采用了多种解决方案,例如为功能路径分支预OCC时钟,或者为目标测试分支增加辅助的OCCs。这些策略确保了时钟域的同步性,同时也保障了功能与测试时钟的独立性,从而使IST能够在复杂时钟环境中稳定运行。

验证和静态时序分析(Static Timing Analysis, STA)也增加了项目的复杂性。通常情况下,STA模式会区分功能路径和可测试性设计(Design-for-Test, DFT)路径,但IST却要求一种混合的“合并”模式,即某些模块处于功能状态,而另一些则处于DFT测试状态。西门子提供的工具包含了用于设计验证(Design Verification, DV)环境的验证配套文件,例如事务文件、C语言代码和SystemVerilog任务。测试在DFT后网表上进行,其中包含了启动序列,这无疑延长了验证的运行时间。因此,DV和DFT团队之间的紧密协作对于交付成果和调试交互至关重要,确保了整个验证流程的顺畅和准确性。

APB总线上的IST实现结果验证了该方案的可行性。在采用32位宽的从属接口和SSN数据总线配置下,硬件开销保持在适度水平:IST控制器(ISTC)增加了200个触发器和5000个标准化组合逻辑单元,而流式扫描主机(SSH)则贡献了1000个触发器和30000个标准化逻辑单元。本次测试共运行了五种系统内测试模式,执行了2500个测试图样,利用了2MB的片上SRAM(约合50万个32位字)。每种模式的图样存储量在165000至260000个32位字之间,对应的图样计数为22至35个。总体而言,系统管理了约190万个32位字,每种模式平均加载4次,充分展示了高效的压缩技术和卓越的带宽利用能力。

总而言之,博通与西门子之间的合作突显了IST在通过现场测试缓解SDC问题中的重要作用。尽管在隔离、时钟和验证方面面临诸多挑战,但该解决方案已在DFT和DV环境中成功实施并验证。未来的工作将扩展到基于AXI总线的IST实现,有望实现更广泛的应用。这种方法不仅提升了AI和超大规模计算环境的可靠性,还显著减少了现场故障,充分证明了嵌入式确定性测试在下一代芯片设计中的价值。新媒网跨境 将持续关注此类先进技术在跨境行业领域的应用与发展。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/eu-us-2025-ai-data-center-sdc-fix.html

评论(0)
暂无评论,快来抢沙发~
博通与西门子EDA在2025年台积电OIP大会上发布报告,强调无声数据损坏(SDC)对AI数据中心等高性能计算环境的挑战。通过In-System Test (IST) 解决方案,可在不中断系统运行的情况下检测潜在缺陷,提升系统可靠性。面临功能隔离、时钟分割、验证等挑战,但已成功实施验证。
发布于 2026-01-04
查看人数 132
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。