台积电发布!AI推理加速20倍,跨境AI应用将大爆发。

在半导体这个“神仙打架”的江湖里,台积电(TSMC)的技术研讨会向来被视为全球科技的风向标。这不仅仅是一场技术交流,更是大佬们秀肌肉、定未来的顶级舞台。
2025年的台积电北美技术研讨会,在美国加利福尼亚州圣克拉拉市如期上演。在这场汇聚了全球顶尖客户与合作伙伴的盛宴中,爆出了一个让整个AI圈子都为之震动的“大新闻”。
新媒网跨境最新获悉,一家名为Cerebras Systems的公司,凭借其堪称“怪兽级”的CS-3 AI推理系统,在众目睽睽之下,硬生生从一众科技巨头中杀出重围,摘得了含金量极高的“年度演示奖”(Demo of the Year)。
这可不是一个普通的奖项。它的颁发,标志着那个曾经只存在于PPT上的宏大愿景——晶圆级计算(Wafer-Scale Computing),已经彻底走出了实验室,正准备在AI推理的战场上掀起一场腥风血雨。

CS-3系统:这不仅仅是快,这是“降维打击”
Cerebras这次获奖的底气,源自其核心动力——第三代晶圆级引擎(Wafer-Scale Engine 3,简称WSE-3)。
这是什么概念?当别人还在费劲地把芯片越做越小的时候,Cerebras直接做了一块拥有4万亿个晶体管的超级大芯片!它是目前业内最大的芯片,没有之一。
在现场演示环节,CS-3系统的表现简直可以用“残暴”来形容。它在运行Meta公司最新的Llama 3.1 405B(4050亿参数)超大模型时,展现了令人咋舌的实时多模态推理能力:
- 单用户每秒处理超过1800个tokens! 这是一个什么速度?也就是你问题刚问完,答案就已经“喷”出来了,完全感觉不到延迟。
- 即使在多用户并发的重压之下,系统依然稳如泰山,维持着每秒超过1000个tokens的处理速度。
最核心的技术突破在于,CS-3系统完全在片内内存中运行,彻底甩掉了外部DRAM这个“拖油瓶”。这使得它在处理复杂的推理、视觉语言和超长上下文任务时,能够实现低于200毫秒的极致低延迟。
演示中,CS-3同时应对数十个并发用户,跑着Llama 3.1 405B这样的庞然大物,上下文窗口开到了128k。无论是多轮复杂问答,还是通过集成Flux.1进行文生图,甚至是实时文档分析,它的响应速度快到让你怀疑自己在用一个本地的小型模型,完全没有云端大模型常见的“转圈圈”等待感。
台积电评审团:这才是我们想要的创新
据了解,台积电的评选委员会由一帮眼光毒辣的资深高管和技术专家组成。往年,这个奖通常是颁给在3纳米、2纳米工艺上取得突破的成就。而今年,他们破天荒地把奖给了一家AI系统公司。
评审团给出的理由非常硬核:
- 单芯片性能的极致突破: 在不需要多节点扩展(堆服务器)的情况下,实现了前所未有的性能。
- 真正的实时交互: 让4000亿参数级别的模型,跑出了“即时通讯”般的流畅感。
- 完美的软硬结合: 台积电最先进的5纳米工艺与Cerebras革命性的晶圆级架构,实现了无缝集成。
这说明什么?说明在台积电看来,Cerebras这种将尖端制造工艺与颠覆性架构结合的路线,才是解决未来大规模AI推理挑战的正确答案。
揭秘核心:为什么晶圆级架构能“吊打”传统GPU?
为什么Cerebras能做到这么快?秘密就在于它的架构。
传统的AI算力集群,是把成千上万个GPU连在一起。当模型太大(比如Llama 3 405B)时,数据就得在不同的GPU之间搬来搬去。这种跨芯片的数据传输和同步,就像是早高峰的堵车,严重拖慢了整体速度。
而Cerebras的CS-3系统,内存带宽高达每秒21拍字节(PB),片上SRAM高达44千兆字节(GB)。这个片上内存容量,相当于把超过3000个传统GPU的内存总和塞进了一块芯片里!
这意味着,整个4050亿参数的模型可以完整地驻留在单个处理器上。
没有了GPU之间的通信开销,瓶颈自然消失。这种设计不仅极大地降低了延迟,更在大型模型推理方面,实现了每美元吞吐量高达20倍的提升。简单说,就是花更少的钱,干更快的活。
Cerebras首席运营官Dhiraj Mallick自豪地表示:“晶圆级计算在过去五十年里一直被认为是‘不可能完成的任务’,但我们和台积电做到了。我们建立了一个完整的平台,能以比GPU快20多倍的速度运行当今最重要的AI工作负载。”
台积电北美业务管理副总裁Lucas Tsai也站台背书,表示很高兴能助力Cerebras将这种变革性的想法变为现实。
英伟达迎来真正的挑战者?
此次Cerebras获奖的背后,是整个市场对“高成本、高延迟”AI推理现状的集体焦虑。
新媒网跨境注意到,就在上个月,独立分析机构Artificial Analysis发布了一项基准测试报告,实锤了Cerebras CS-3的强悍实力:在Llama 3.1 70B和405B的推理领域,它是目前全球最快的单加速器系统。
在“每秒tokens”和“首次token生成时间”这两项关键指标上,CS-3均超越了英伟达(NVIDIA)的H100甚至Blackwell GPU集群。这无疑是在AI硬件领域投下了一枚重磅炸弹。
目前,Cerebras正将其CS-3系统交付给医疗健康、金融、政府和科学研究等领域的客户。同时,他们还推出了Cerebras Inference Cloud,让开发者可以通过API直接调用Llama 3.1 405B模型,体验每秒1800个tokens的“极速快感”。
结语
Cerebras拿下台积电的这一殊荣,不仅仅是一个奖项那么简单。它宣告了晶圆级计算时代的正式到来,也巩固了其在生成式AI推理领域的性能领导者地位。
对于我们广大从事跨境电商、游戏、支付、贸易和广告的朋友们来说,这意味着未来我们将有机会用上更高效、更便宜的AI工具。当AI的推理成本大幅下降、速度大幅提升时,真正的应用爆发期或许就在眼前。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/tsmc-boosts-20x-ai-inference-x-border-boom.html


粤公网安备 44011302004783号 













