中国芯2025爆发!英伟达95%份额暴跌!

2025-11-25AI工具

中国芯2025爆发!英伟达95%份额暴跌!

全球AI算力格局正在经历一场深刻的变革。过去,AI芯片的使用几乎完全由美国主导,但这一现状正在迅速改变。中国在开源AI开发领域取得了显著进展,同时国内AI芯片研发也实现了飞速发展。近几个月来,华为昇腾、寒武纪等国产芯片已开始为中国高性能开源AI模型的推理提供算力支持,部分模型甚至已启动使用国产芯片进行训练。

这一转变对政策制定者、AI研究人员和开发者带来了双重影响:美国实施的出口管制措施,反而加速了中国芯片的自主生产进程;同时,中国芯片稀缺的状况,也可能激励了众多推动全球AI发展、具备创新性的开源技术涌现。

国产芯片的迅速发展与美国更严格的出口管制措施呈现出高度相关性。在芯片获取不确定性的背景下,中国企业通过芯片生产和算法优化提升算力效率,不断进行创新。出于现实需求,减少对英伟达的依赖促使中国本土企业部署了全栈AI解决方案,阿里巴巴即是其中一个典型案例。

算力限制可能激励了架构、基础设施以及训练方法上的进步。开源领导者在算力效率方面的创新包括DeepSeek引入的多头潜在注意力(MLA)和群组相对策略优化(GRPO)。开放共享的文化促进了知识交流,而算力效率的提升则有助于降低推理成本,进而推动AI经济的持续演进。

国产芯片已被证实具备足够的能力,这激发了市场需求,模型也开始针对国产芯片进行优化。与此同时,软件平台也随之转型,英伟达CUDA的替代方案不断涌现,并在各个层面挑战英伟达。AI开发者与芯片厂商之间的协同作用,正在共同创建一个快速演进的新型软件生态系统。全球算力格局的持续变化,将继续塑造开源AI、模型训练、部署乃至整个AI生态的未来走向。

全球算力格局之变

过去几年,先进AI芯片的效用和需求持续增长,并预计将继续攀升。英伟达芯片曾长期占据主导地位。然而,近期一批新参与者正吸引着全球目光。中国长期致力于国内芯片生产,制定了自给自足的战略规划,并投入了大量资金和基础设施建设。当前,新一代中国开源AI模型正逐步由国产芯片驱动。全球范围内的更大趋势也在加剧,中美两国均以国家安全为由,对芯片和稀土资源实施限制。随着美国出口管制的收紧,中国生产芯片的推出速度似乎也加快了。

新媒网跨境获悉,中国国内芯片产业的崛起,正在从根本上改变全球AI训练和部署的既有规范与预期。越来越多的模型正为中国硬件进行优化,同时计算效率高的开源模型也获得了更广泛的应用。在最近几个月里,中国制造的芯片已开始为流行模型的推理提供算力,并逐步应用于模型训练任务。

这些变化可能影响AI训练所使用的技术、对计算效率和特定硬件的优化、推理成本的降低,乃至近期开源领域蓬勃发展。这或许会促使美国贸易政策和中国全球部署策略发生转变,从而将全球AI发展的重心从以美国为核心,转向一个中国居于主导地位的未来生态。

中国芯崛起:重塑全球AI基础设施

早在现代AI热潮之前,中国的国内芯片生产就已持续多年。其中最引人注目的先进芯片之一是华为的昇腾系列,该系列最初于2018年发布,并于2024年开始扩大部署,在2025年更是加速推进。其他值得关注的芯片还包括寒武纪科技的产品和百度昆仑芯片。2022年,美国政府对先进AI芯片实施出口管制,此举旨在限制中国获取高端GPU,从而延缓中国的AI发展进程。然而,最初旨在阻碍的行动,却出乎意料地成为催化剂。构建壁垒的意图反而为新兴产业奠定了基础。

中国AI实验室最初是出于对芯片供应被切断的担忧,但随后便以创新浪潮作为回应,不仅产出了Qwen、DeepSeek、GLM和Kimi等世界级的开源模型,还开发出日益驱动这些模型训练和推理的国产芯片。芯片制造商与开源社区之间正在形成日益紧密的合作关系,本地运行开源模型的能力也带来了互惠互利的反馈,例如,针对昇腾芯片优化的模型数量正在增加。中国在开源和算力方面的进步正在重塑全球格局。外媒报道,知名投资机构a16z合伙人Martin Casado指出,相当一部分美国初创企业现在正基于中国的开源模型进行开发。近期一项分析也显示,中国开源模型在LMArena上的受欢迎程度位居前列。

限制措施造成的空白,点燃了中国国内全栈式自主研发的热情,使得一度被边缘化的本土芯片制造商,摇身一变成为关键国家资产。这还促进了芯片制造商与研究人员之间紧密协作,共同构建了一个可行的非英伟达生态系统。这已不再是假设情境:随着百度、蚂蚁集团等巨头成功在国产硬件上训练基础模型,一个并行的AI基础设施正在迅速形成,直接挑战了英伟达最大的优势——以开发者为中心的软件生态系统。

有关芯片管制及其对硬件开发和部署影响的详细时间线,请参阅文章附录。

禁令下的应对:中国AI迈向“非英伟达优先”

2022年的禁令,恰逢ChatGPT引发的全球震荡,在中国科技界引发了一场恐慌。此前普遍且安全的英伟达算力供应不复存在。甚至有关于走私英伟达芯片的报道浮出水面。然而,禁令摧毁了研究社区的信任,面对可能永久落后的前景,他们被迫创新。由此诞生了一种务实的新理念:“非英伟达优先”不再仅仅是意识形态的选择,而成为一种理性策略。

算力约束下的创新爆发:开源模型与效率飞跃

中国的实验室采取了不同的路径,专注于架构效率和开放协作。开源,一度是小众兴趣,如今成为新常态,是通过共享知识迅速加速进展的务实选择。这种范式允许组织利用现有高质量的预训练模型作为基础,通过后续训练(post-training)开发专业应用,极大地降低了计算负担。一个主要例子是DeepSeek R1模型,其V3架构在后续训练上仅需不到30万美元,这显著降低了企业开发复杂模型的门槛。尽管这不是完整的基座模型,但其推理模型的成本削减是巨大的。

DeepSeek V3模型中引入的多头潜在注意力(MLA)等提升内存效率的算法进步,很可能是受限于算力环境所激励的,这构成了2025年1月“DeepSeek时刻”的重要组成部分。那一时刻也促使包括曾采取闭源策略的中国企业在内,更广泛地调整战略,投入到算力高效的开源模型研发中。这些模型的低成本可能源于多种因素,也受效率影响;随着中国企业降低计算和推理成本,他们将这些更低的成本转嫁给用户,进一步推动了整体AI经济的发展。
DeepSeek的开源力量

DeepSeek的开源力量: 除了在2025年初引起轰动的高性能和低成本,DeepSeek作为计算高效前沿实验室的开创性贡献,是其公司和模型成为行业中坚力量的重要原因。这些进步很可能归因于在算力稀缺环境下的创新。在投资人梁文峰“纯粹追求开源和AGI”的资助下,DeepSeek成为Hugging Face上关注度最高的组织。其高度详细的技术论文,包括发表在《自然》杂志上关于其R1模型的开创性研究,树立了科学交流的新标杆。尽管其API的吸引力不如其开放权重,但在2024年,DeepSeek将其API价格削减至OpenAI的1/30,引发了价格战。2025年,DeepSeek-OCR进一步证明了其在计算效率方面的实力,并随着DeepSeek-V3.2-Exp的发布,他们向用户提供了额外的50%+折扣。值得注意的是,DeepSeek的V3.2-Exp模型在发布之初就支持在国产芯片(华为昇腾和寒武纪)上部署。这次发布也标志着对CUDA替代方案的重视,并展现了全栈式软硬件AI基础设施的部署。

Qwen生态系统主导地位: 阿里巴巴正在朝着控制高性能模型和自主设计芯片的全栈路径迈进,从而减少对英伟达的依赖。该公司的Qwen系列成为全球开源研究的主要资源。其宽松的Apache 2.0许可证支持商业用途,这解决了许多同类模型常因更严格的自定义许可证而面临的商业化障碍,导致在Hugging Face上诞生了超过10万个衍生模型。阿里巴巴近期还推出了改进型芯片以提升推理性能,其PPU已被整合到国内基础设施项目中。

低成本、高效率的行业浪潮: 更多开源模型发布后宣称实现了最先进的性能,同时定价显著降低。智谱AI凭借其GLM-4.5和4.6的开源版本再度回归,两者均迅速登上Hugging Face的热榜,其中4.6版本更成为LMArena上性能最佳的开源模型。GLM的API定价持续下调,展现出极高的成本效益,甚至提供了每月3美元的套餐,仅为Claude Code价格的五分之一。尽管其定价决策的完整透明度尚不明确,但效率可能发挥了重要作用。

国产芯片全面训练的萌芽: 尽管许多即将推出的芯片主要为推理设计,但越来越多的模型暗示正在使用国产芯片进行训练。蚂蚁集团率先在其复杂的异构集群上训练了Ling模型,该集群包含了英伟达、昇腾和寒武纪芯片。百度则成功地在由超过5000个国产昆仑P800加速器组成的集群上进行了连续预训练,并由此产出了其千帆VL模型。

技术前沿突破:算力受限催生多维创新

创新不仅局限于模型权重,更深入到软件和硬件堆栈。

(1)架构探索: 像彭博这样的基层独立研究人员,一直倡导将线性注意力(Linear Attention)作为Transformer架构的潜在继任者。这种方法有时被称为“RNN的复仇”,已在RWKV等模型中得到体现,并被中国实验室扩展到MiniMax M1和Qwen-Next等商业级模型中,这些实验室愿意冒险进行高风险、高回报的研究。与此同时,DeepSeek则通过迭代原始Transformer架构,探索了不同的路径。他们的工作引入了多头潜在注意力(MLA)和随v3.2模型推出的DeepSeek稀疏注意力(DSA)等创新,旨在显著降低推理时的计算成本,同时不牺牲性能,并通过更快的采样加速强化学习(RL)探索。高性能专有模型的架构尚未公开,因此难以进行比较。

(2)开放基础设施: 突破企业保密惯例,许多实验室共享了其核心工程秘密。Kimi团队在Mooncake服务系统上的工作,使预填充/解码分离正式化。StepFun的Step3通过注意力-前馈网络分离(AFD)进一步增强了这一点。百度发布了详细技术报告,阐述其在Ernie 4训练中克服的工程挑战,而字节跳动的火山引擎则贡献了verl,这是一个将生产级强化学习训练工具开放给社区的开源库。曾经的专有技术诀窍,如今成为社区知识,推动了自我迭代的进步飞轮。

(3)训练突破: DeepSeek的DeepSeekMath论文引入了一种新颖的强化学习(RL)方法——群组相对策略优化(GRPO),与之前类似的方法近端策略优化(PPO)相比,它显著降低了计算成本,同时稳定了训练并提升了准确性。GRPO随后被纳入DeepLearning.AI课程,Meta的研究人员在其Code World Model中以此为基础进行了开发,并被OpenAI研究负责人Jerry Tworek盛赞为“在很大程度上加速了大多数美国研究实验室的强化学习研究计划”。所有这些工作汇聚在一起,在LMSYS的Chatbot Arena等公共排行榜上,DeepSeek R1、Kimi K2、Qwen和GLM-4.6等模型现在经常与美国模型一同出现在榜单前列。算力限制下的创新带来了飞跃。

软硬兼施:重构AI生态软实力

当AI模型进行训练和部署时,通常会针对特定类型的芯片进行优化。而英伟达的软件生态系统,其重要性甚至超越了硬件本身,长期以来一直是全球AI生态系统可靠的基石。

由AlexNet在2012年通过英伟达GPU取得胜利所引发的深度学习革命,催生了一种共生关系。英伟达的CUDA(Compute Unified Device Architecture)、cuDNN以及NCCL(Collective Communications Library)长期以来构成了AI研究的基石。包括PyTorch和Hugging Face transformers等流行框架在内的整个生态系统,都针对CUDA进行了深度优化。整整一代开发者在这个生态系统中成长,这造成了巨大的切换成本。一个不愿从现有平台切换的软件生态系统,现在正在探索其他选择,这可能是摆脱对美国依赖的第一步。随着新芯片的崛起,软件方面也随之演进;开发者正在针对新的并行平台进行优化,并部署他们最新的模型。

国产芯片的逆袭:从“可用”到“热求”

在2022年之前,寒武纪和华为昇腾等公司的国产芯片很少受到认真对待。但在2025年,当SiliconFlow在DeepSeek R1发布几周后,首次展示DeepSeek R1模型在华为昇腾云上无缝运行时,这些国产芯片被推向了国内AI生态系统的中心。这引发了多米诺骨牌效应,在市场上掀起了一场竞速赛,旨在更快、更好地在国产芯片上服务国内模型。在整个生态系统而非仅DeepSeek的推动下,昇腾的支持矩阵迅速扩展。这证明了国产芯片具备足够的能力,并激发了巨大的市场需求。值得注意的是,华为昇腾在DeepSeek v3.2发布当天就实现了零日集成,这种合作水平此前是难以想象的。

本土协同:构建更敏捷的AI开发生态

研究人员开始与国内芯片供应商进行协同开发,直接提供反馈并合作解决问题。这种协同效应正在创建一个专门针对大型语言模型(LLM)的开发生态系统,其演进速度远超英伟达的CUDA。

新一代年轻研究人员在这种多供应商环境中成长起来,他们不再抱有国产硬件不如英伟达芯片的旧有偏见。这种合作方式已经带来了实际应用。DeepSeek-V3.1模型的文档指出,其新的FP8精度格式明确旨在“面向下一代国产芯片”,这是硬件感知模型协同设计的一个清晰范例。其继任者DeepSeek-V3.2则更进一步,内置了基于TileLang的内核,旨在实现跨多个硬件供应商的便携性。

软件新篇章:挑战CUDA的霸主地位

CUDA生态系统现在正受到各个层面的挑战。来自北京智源人工智能研究院(BAAI)的FlagGems和TileLang等开源项目,正在创建后端中立的CUDA和cuDNN替代方案。华为集合通信库(HCCL)等通信堆栈也正在提供强大的NCCL替代品。新媒网跨境了解到,当前这个生态系统与三年前相比已发生显著变化,这将对全球产生深远影响。

展望未来:中国AI生态的全球影响力

适应地缘政治谈判、资源限制和文化偏好,促使中国在高性能AI发展和具有竞争力的国产芯片领域都取得了飞跃。美国政策在不同政府执政期间有所变化,从禁令转向了营收分成模式,而中国则以产业政策和国际贸易法相结合的方式予以回应。研究人员和开发者也随之创新和调整。其对开源、训练和部署的影响表明,软件依赖正在发生转变,算力效率的创新正在塑造全球发展,一个自给自足的中国AI生态系统正在加速形成。

中国的国内AI生态系统正在加速发展,摩尔线程、沐曦和壁仞等公司正竞相准备IPO。一度陷入困境的寒武纪,其估值也大幅飙升。

这个新芯片生态系统在全球范围内的扩张前景,尚待观察。

全球芯片生态系统的未来,以及AI进步的未来,已成为即将举行的领导人会谈中的一个关键议题。问题已不再是中国能否建立自己的生态系统,而是它将走向何方。

附录:芯片管制与硬件发展时间线

2022年之前,美国的限制主要针对特定的超级计算实体。随后,随着监管机构和行业的适应,政策也随之演变。

(1)初步行动(2022年10月): 昇腾等芯片尚处于萌芽阶段,英伟达在全球和中国市场占据主导地位。美国商务部工业与安全局(BIS)发布了“先进计算”管制措施,以解决美国的国家安全和外交政策关切。该规则设定了计算门槛和互连带宽触发机制,立即切断了中国获取英伟达旗舰A100和H100 GPU的渠道。中国迅速向世界贸易组织(WTO)提起争端(DS615),认为这些措施是歧视性贸易壁垒。

(2)调整时期(2022年末至2023年): 英伟达在中国市场95%的份额开始迅速下降。英伟达开始为中国市场开发符合管制的变体。A800(2022年11月)和H800(2023年3月)应运而生,通过降低芯片间带宽以满足监管要求,并作为A100和H100的替代品。广受欢迎的消费级RTX 4090也被限制,促使英伟达推出了中国专用版RTX 4090D。

(3)弥补漏洞(2023年末至2024年): 中国国产芯片的性能逐步提升。BIS全面升级了管制框架,取消了互连带宽作为关键测试指标,并引入了新的衡量标准:总处理性能(TPP)和性能密度。这直接且成功地打击了A800/H800系列。关于H20甚至模型权重出口管制的讨论也随之扩大。

(4)叙事转变(2025年): 继1月“DeepSeek时刻”之后,昇腾、寒武纪和昆仑芯片的采用率急剧上升。同样在1月,美国政府设立了AI扩散规则,在安全和走私担忧下,对芯片和特定模型权重施加了进一步限制。作为回应,英伟达设计了一款新的符合管制要求的芯片H20。英伟达首席执行官黄仁勋利用公司在政治领域日益增长的影响力,开始公开解释在全球销售美国芯片的战略重要性。随后,美国于2025年4月发布了许可要求,向英伟达收取55亿美元,有效叫停了销售,但在2025年5月撤销了AI扩散规则。

(5)妥协与转折(2025年8月): 阿里巴巴宣布推出一款新的推理芯片。经过激烈谈判,美国商务部开始发放H20的许可证,并附带了前所未有的15%收入分成协议。但当H20解禁时,市场格局已然改变。

(6)中国的回应(2025年末): DeepSeek新模型开始对昇腾和寒武纪实现零日部署。随着美国转向营收分成模式,北京方面也做出了回应。据报道,中国监管机构指示企业取消英伟达订单,引导需求转向国产加速器,旨在实现“本土安全供应”。随后,中国对美国的措施启动了反歧视调查,并对美国模拟集成电路展开了反倾销调查,使芯片问题成为未来高层对话的核心议题。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/china-chip-rise-nvidia-95-share-plunge.html

评论(0)
暂无评论,快来抢沙发~
2025年,美国总统特朗普执政期间,美国对中国的芯片出口管制加速了中国国产芯片的发展,华为昇腾、寒武纪等芯片开始支持中国开源AI模型的训练和推理。中国AI企业减少对英伟达的依赖,转向全栈AI解决方案,推动了架构、基础设施和训练方法的创新,重塑全球AI基础设施。
发布于 2025-11-25
查看人数 128
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。