5月14日,英伟达CEO黄仁勋在离开人民大会堂期间回应记者的提问时,他竖起拇指,表示会谈进展顺利。

5月14日晚间,英伟达大涨4%,再创历史新高,截至发稿时市值已高达5.7万亿美元。这与H200获批进入中国市场这则市场传闻直接相关。


该新闻首先由路透独家报道,“美方已批准约10家中国公司购买H200、单一客户上限7.5万颗”。目前,包括观察者网在内的多家中国媒体亦对此全面跟进。

截至目前,H200在中国市场尚未出现任何交付或销售记录。 但是,这并不等于获批后仍然交付无望。更何况,自今年初开始,H200对华交易已经出现过多次推进信号。

更何况,自今年初开始,H200 对华交易已经出现过多次推进信号,包括英伟达要求中国客户以全额预付、不可取消、不予退款的严苛条款锁定订单。

本次H200 获批发生在中美领导人会晤之后,双方就经贸、科技等领域达成多项共识,释放出 "稳定预期、管控分歧" 的积极信号。在这一背景下,H200的讨论已经超出单纯的进出口范畴,它不仅关系到国内云厂商的扩容节奏、智算中心的上架计划,更深刻影响着国产GPU的发展路径与中美算力竞争的格局。

深算派通过下表来简单梳理下H200的时间线。


01

H200的代际差

要准确理解H200获批的产业意义,首先需要厘清它在英伟达产品谱系中的位置。

H200并非英伟达最新一代架构的芯片,而是Hopper架构H系列的强化型号,于2023年11月正式发布。其核心升级全部集中在显存与带宽两个维度,这也是当前大模型推理场景最核心的瓶颈。

根据英伟达官网公开数据,H200搭载 141GB HBM3e显存,显存带宽达到 4.8TB/s,较 H100 的 80GB HBM3 显存和 3.35TB/s 带宽,分别提升了 76% 和 43%NVIDIA。在计算性能方面,H200 与 H100 基本保持一致,FP8 算力为 4000 TFLOPS,FP16 算力为 2000 TFLOPS。这意味着 H200本质上是 H100 的"显存增强版",专门针对大模型推理和长上下文任务进行了优化。

英伟达的GPU产品迭代遵循"架构代际+型号升级"的双轨制。目前,英伟达已经形成了完整的三代产品体系:Hopper架构的H系列、Blackwell架构的B系列以及未来的Vera Rubin架构的R系列。这三代产品在定位、性能和工程实现上存在显著差异。


从代际关系来看,H200与H100 同属 Hopper 架构,二者之间不存在架构代际的断裂。这意味着H200完全兼容H100的软件栈、服务器平台和运维体系。对于已经部署了H系列集群的云厂商和智算中心来说,升级到H200几乎不需要改造现有基础设施,可以实现 "即插即用",快速转化为可用产能。

相比之下,Blackwell架构的B系列则是一次彻底的架构换代。B200不仅在计算性能和显存带宽上有显著提升,更重要的是它采用了全新的系统级设计,对整机形态、互联方案、机柜级集成提出了更高要求。B200的TDP高达1000W,远高于H200的700W,需要全新的电源和散热系统支持。这意味着部署B系列,需要对数据中心进行大规模改造,部署周期显著拉长。

更远期的Rubin平台,无疑是最先进的,代表了英伟达的未来战略方向。它不再是单一的GPU芯片,而是一个完整的AI 工厂平台,集成了CPU、GPU、NVLink 交换、网卡、DPU、以太网交换等一整套组件。

Rubin平台的目标是实现从芯片到机柜再到数据中心的全栈优化,将竞争门槛从单卡性能提升到了平台级生态绑定。

02

中国AIDC,为什么更适合H系列?

当前,国内智算中心在GPU选型上,普遍更倾向于H系列而非B系列。这一选择并非因为H系列性能更先进,而是基于交付确定性、部署成本和工程可行性的综合考量。

首先,H系列的交付确定性远高于B系列。

自2022年美国出台先进计算芯片出口管制规则以来,英伟达的高端GPU对华出口一直受到严格限制。B系列作为英伟达最新一代架构的产品,技术含量更高,战略意义更强,因此受到的出口管制也更为严格。截至目前,B系列尚未获得任何对华出口许可,短期内也看不到放开的迹象。而H系列作为上一代产品,管制相对宽松,本次H200 获批就是一个明证。

其次,H系列的部署成本更低,周期更短。

如前所述,H200完全兼容H100的服务器平台和运维体系。国内已经有大量的H100和H20服务器在运行,相关的工程团队、运维经验和软件生态都已经非常成熟。部署H200 只需要替换GPU 芯片,不需要改造机柜、电源、散热和网络系统,部署周期可以控制在1-2个月内。而部署B系列则需要全新的服务器设计、机柜改造和系统调优,部署周期至少需要6个月以上,成本也会增加30%-50%。

第三,H系列更适合当前国内的主流应用场景。

当前国内AI产业已经从训练阶段全面转向部署阶段,推理业务成为算力消耗的绝对主力。根据中国信通院的数据,2025年国内AI算力中推理算力的占比已经达到68%,预计2026年将进一步提升至75%。H200 的核心优势正是在于推理性能,其141GB的大显存和4.8TB/s的高带宽,完美适配长上下文对话、RAG 检索增强、多模态交互等主流推理场景。而B系列虽然在训练性能上更具优势,但在推理场景下的性价比并不比H200高多少。

第四,H系列的供应链更加稳定。

英伟达的H系列芯片已经量产多年,产能充足,供应链成熟。而B系列芯片刚刚进入量产阶段,产能有限,主要供应北美和欧洲市场。即使未来B系列获得对华出口许可,国内企业也很难拿到足够的配额。

综合以上因素,对于国内智算中心来说,H 系列是当前最现实、最经济、最可靠的选择。

B系列虽然性能更先进,但在可获得性、部署成本和周期上都存在明显劣势。在出口管制和供应链不确定的背景下,能上线远比追求最先进更为重要。

不过,这里仍要说明一下,英伟达B系列(Blackwell)并不像有人说的是过渡性产品,而是英伟达从单卡算力转向系统级算力的核心主力平台,生命周期约 2年(2024-2026),是全球首个专为推理优化的架构,首次将竞争维度从单卡提升到机柜级集成。B200/B300是2025-2026年全球高端算力的绝对主力,出货量将远超H系列。

03

推理时代的到来,以及国产替代的真实进展

AI产业正在经历一场深刻的范式转变:过去的重心是模型训练,而当下和未来,推理将成为绝对的主角。这一转变对国产算力产业的发展具有深远影响。

训练阶段的核心目标是打造出能力强大的模型,它对硬件的要求是极致的性能和生态的一致性。训练任务通常需要数千甚至数万张GPU卡协同工作(万卡集群),对卡之间的互联带宽和延迟要求极高。同时,训练任务高度依赖CUDA 生态,软件栈的成熟度直接影响训练效率。这也是为什么在训练阶段,英伟达的GPU几乎处于垄断地位。

而推理阶段则完全不同。

推理的核心目标是以最低的成本、最高的效率为用户提供稳定的服务。它对硬件的要求不再是单一的峰值性能,而是单位token成本、吞吐与时延的综合表现。推理阶段的工程手段更加丰富,量化、并行策略、KV Cache管理、推理引擎优化、算子融合、调度与通信优化等,都可以在不改变模型结构的情况下显著提升性能。这为国产GPU提供了弯道超车的机会。

在推理时代,国产GPU已经取得了显著的进展,形成了以华为昇腾为龙头,寒武纪、海光信息、摩尔线程等多强并立的格局。

华为昇腾是国产GPU的绝对领导者。2026年4 月,华为正式启动昇腾950PR 的大规模量产。根据公开信息,昇腾950PR搭载112GB自研HiBL 显存,FP4 算力达1.56P FLOPS,在DeepSeek V4模型8K输入长度的标准测试场景下,单卡推理性能是英伟达H20 的2.87 倍。

华为还推出了 CloudMatrix384 超节点系统,将384颗昇腾910C与192颗鲲鹏CPU通过高带宽互联实现全互联与资源池化,并围绕MoE 并行、KV Cache 访问等推理负载做了系统级优化。这一系统在eepSeek V4 模型上的表现已经接近英伟达的同类产品。

寒武纪是国内领先的 AI 芯片设计公司。2026年一季度,寒武纪实现营收 28.85亿元,同比增长159.56%;归母净利 10.13亿元,同比增长185.04%;经营现金流转正至8.34 亿元,为上市以来首次季度现金流为正。支撑这一业绩的核心是思元590芯片的大规模出货。思元590采用7nm Chiple封装,FP16 算力 256TFLOPS,INT8 算力 512TOPS,96GB HBM2e,综合性能接近英伟达A100的80%。目前,思元590已经在字节跳动、百度、阿里巴巴等头部互联网企业实现大规模部署。

海光信息坚持CPU+DCU双轮驱动战略。2026年一季度,海光信息实现营收 40.34亿元,同比增 68.06%;归母净利润6.87 亿元,同比增长35.82%。海光的DCU产品已经广泛应用于超算中心、金融、能源等领域,在科学计算和 AI 训练方面表现出色。

尽管国产GPU取得了显著进展,但我们必须清醒地认识到,国产替代仍然处于初级阶段。在高端训练芯片领域,国产GPU与英伟达的差距仍然较大。即使在推理领域,虽然国产GPU已经能够满足大部分应用需求,但在生态成熟度、软件工具链和大规模集群稳定性方面,与英伟达仍有不小的差距。

04

国产GPU与英伟达的差距正在加大?

这几乎是一个关乎中国算力战略成败的核心问题。

市场上存在两种截然不同的观点:一种观点认为,随着国产GPU性能的快速提升和生态的不断完善,差距正在逐步缩小;另一种观点则认为,英伟达的迭代速度太快,平台化优势太明显,差距实际上在不断加大。

深算派认为,从单卡性能的角度来看,国产GPU 与英伟达的差距确实在逐步缩小;但从平台化和生态的角度来看,差距正在不断加大。

从单卡性能来看,国产GPU的进步有目共睹。华为昇腾950PR的推理性能已经超过了英伟达的H20,接近H100的水平。寒武纪的思元590综合性能也达到了 A100的80%左右。按照这个速度,国产GPU望在未来2-3年内,在单卡性能上追平英伟达的上一代产品。

但从平台化和生态的角度来看,差距正在不断拉大。

英伟达已经从单一的GPU芯片供应商,转变为完整的AI计算平台提供商。其 Blackwell架构和未来的Rubin 平台,不再是简单的芯片升级,而是系统级和平台级的革新。英伟达通过DGX系统、HGX模组、NVLink互联、CUDA软件栈、TensorRT推理引擎等一整套产品和技术,构建了一个封闭但高效的生态系统。这个生态系统的壁垒极高,后来者很难突破。

更重要的是,英伟达的迭代速度正在不断加快。

过去,英伟达的GPU架构迭代周期是2年;现在,已经缩短到了18个月。而且,每一代架构的提升幅度都是指数级的。Blackwell架构相比Hopper架构,推理性能就提升了4 倍,能效提升了 25倍。按照这个速度,国产GPU 即使在单卡性能上追平了英伟达的上一代产品,英伟达的下一代产品又已经推出了,差距似乎永远存在。

此外,出口管制的不断升级也在拉大差距。

美国不仅限制高端GPU对华出口,还限制先进制造设备、EDA软件、IP核等关键技术的出口。这使得国产GPU在制程工艺、先进封装、HBM显存等方面面临巨大的瓶颈。例如,HBM显存目前几乎被三星、SK海力士和美光三家垄断,国产HBM显存刚刚进入量产阶段,性能和产能都与国际先进水平有较大差距。

综合来看,讨论国产GPU与英伟达的差距,是一个复杂的问题,不能简单地用 加大或缩小来概括。在单卡性能和特定应用场景上,差距正在缩小;但在平台化、生态和整体技术实力上,差距正在加大。这就要求我们的算力战略必须更加务实,不能盲目追求全面超越,而应该聚焦重点领域,发挥比较优势,走差异化发展道路。

05

放H200进来的利与弊

放H200进来,其实是一把双刃剑。

它既可以缓解国内高端算力的紧张局面,为国产GPU提供对标基准;也可能挤压国产GPU的市场空间,延缓国产替代的进程。如何在 "算力即国力" 与 "自主可控" 之间找到平衡,是当前我国算力战略面临的核心挑战。

放H200进来的好处是显而易见的。

首先,它可以快速缓解国内高端算力的紧张局面。

当前,国内AI产业正处于快速发展期,对高端算力的需求呈爆发式增长。

根据中国信通院的数据,2025年国内AI算力需求达到了350EFLOPS,同比增长78%;预计2026年将达到600EFLOPS,同比增长71%。而国产GPU的产能远远无法满足这一需求。

2026年国内高端AI芯片总需求约450万颗,国产供给约220-240万颗,自给率约50%,其中昇腾950PR 计划出货75万颗。

缺口主要靠三类方式填补:一是合规进口英伟达H20/H200(H200 获批后配额落地);二是大厂出海部署,在东南亚、中东采购英伟达芯片建集群;三是存量复用+算力调度优化,通过低负载业务迁移、集群池化提升利用率,同时用寒武纪、海光等国产中低端芯片分流非核心需求。

其次,它可以为国产GPU提供明确的对标基准。

有了 H200 这个参照物,国产 GPU 厂商可以更清晰地找到自身的差距与不足,从而更有针对性地加大研发投入,提升产品性能与生态成熟度。同时,H200 的进入也会给国产 GPU 带来竞争压力,倒逼它们加快技术创新和产品迭代的速度。

第三,它可以为国内企业争取宝贵的时间窗口。

AI产业的竞争是一场速度的竞赛。谁能先把产品推向市场,谁就能占据先机。放H200进来,可以让国内企业在短期内获得足够的算力支持,加快产品研发和商业化进程,在全球AI竞争中占据有利位置。同时,也为国产GPU的发展争取了宝贵的时间。

当然,放H200 进来也存在明显的风险。

最主要的风险是可能挤压国产GPU的市场空间。

如果国内企业可以轻松获得 H200,它们可能会更倾向于使用成熟的英伟达产品,而不愿意冒险使用国产 GPU。这会导致国产GPU失去宝贵的市场机会和真实负载,从而延缓生态成熟和技术进步的速度。

其次,它可能会增强国内企业对英伟达的依赖。

英伟达的生态系统非常强大,一旦国内企业深度融入这个生态系统,就很难再脱离出来。这会使得中国的AI产业在核心技术上受制于人,存在巨大的安全风险。

第三,它可能会影响国产GPU产业链的发展。

如果国产GPU的市场需求不足,相关的上游企业,如芯片设计、制造、封装、测试等,也会缺乏发展的动力。这会使得整个国产GPU产业链陷入恶性循环。

如何平衡这些利弊,找到一条适合中国国情的算力发展道路?主流企业、官方和学者普遍认为,应该采取"分层使用、场景切割、比例管理"的策略。

具体来说,就是将算力需求分为不同的层次和场景:

对于关键在线推理业务,对时延和稳定性要求极高,可以允许使用一定比例的进口高端GPU;

对于政企核心业务、关键基础设施、以及可控范围内的行业模型,必须使用国产GPU;

对于科研和教育等非敏感领域,可以灵活使用进口和国产GPU。同时,通过政策引导和市场机制,确保国产GPU获得足够的市场空间和真实负载。

这种策略的核心思想是:既能保证国内AI 产业的发展速度,不要因为追求自主可控而牺牲发展机遇;也要坚持自主可控的战略方向,不能因为短期的便利而放弃长期的安全。通过两条腿走路,实现发展与安全的有机统一。

06

H200放行对产业链的影响,以及A股的机会

H200放行的影响,将沿着"芯片→服务器→数据中心→应用" 的产业链条逐层传导。从A 股投资的角度来看,以下几个环节的受益最为直接且确定性最高。

(一)头部互联网企业:推理产能边际改善,竞争力显著提升

H200放行的最大受益者,无疑是国内的头部互联网企业,尤其是字节跳动、阿里巴巴和腾讯。这三家公司是本次获批采购H200的主要主体,也是国内AI算力需求最大的企业。

字节跳动作为国内AI应用的领军者,其抖音、今日头条、豆包等产品对推理算力的需求极其巨大。H200的引入将显著提升字节跳动的推理集群吞吐能力,降低单位token成本,改善用户体验。同时,也将加快字节跳动在多模态、AGI 等前沿领域的研发进度。

根据公开信息,字节跳动2026年的AI资本开支已从1600亿元上调至2000亿元,其中60%-70%将投向AIDC领域。

阿里巴巴和腾讯也将从H200放行中显著受益。阿里云和腾讯云是国内最大的两家云服务商,拥有大量的AI 客户。H200的引入将提升它们的云服务竞争力,吸引更多的AI客户。同时,也将支持它们自身的AI业务发展,如阿里的通义千问、腾讯的混元大模型等。

(二)AIDC 基础设施服务商:高功率机柜需求爆发,龙头企业率先受益

H200进入国内后,头部互联网公司将加速推进AI算力集群的扩容计划,这将直接带动高功率智算中心(AIDC)的需求。那些深度绑定头部客户、拥有充足高功率机柜储备、且掌握成熟液冷技术的 AIDC 龙头,将成为本次利好最直接的受益者。

润泽科技(300442.SZ)是本次H200 获批最具确定性的A股受益者。

根据润泽科技 2025 年年报披露口径,H200 获批的利好逻辑可从四个维度精准落地:

一是业务结构高度匹配。2025年公司AIDC业务实现营收25.10亿元,同比大增 72.97%,占总营收比例升至44.24%,毛利率达48.50%,已超越传统 IDC 成为核心增长引擎。H200等高功耗GPU的部署需求,将直接拉动公司高毛利 AIDC业务的加速放量。

二是客户绑定深度足够。年报明确公司"深度覆盖国内前三大互联网企业、头部云厂商及核心 AI 企业",其中字节跳动为第一大客户,贡献约60%收入,承接了字节2025年新增算力需求的50%。本次字节为H200主要获批主体,其算力扩容节奏加快将直接传导至公司业绩。

三是技术能力完全适配。2025年公司自研冷板式液冷技术全面应用,实现单机柜45kW以上高密度部署,PUE低至1.08-1.15,可稳定承载H200单卡700W 的高功耗需求。全年新增交付算力220MW,交付规模超此前十六年累计总量的 40%,产能储备充足。

四是业绩确定性极强。公司与头部客户签订10-15年长单。H200 获批后,字节 2026年上调至2000亿元的AI资本开支中,预计将有200-280亿元转化为润泽的增量订单,直接提升公司高功率机柜上架率与单卡ARPU。

万国数据(GDS.US/09698.HK)是国内领先的第三方IDC 服务商,深度绑定阿里、腾讯等头部客户。截至2025年底,万国数据拥有约15万架机柜,是国内规模最大的第三方 IDC 服务商。H200 获批后,阿里和腾讯的算力扩容计划将加速推进,万国数据将从中显著受益。

数据港(603881.SH) 是阿里云的核心合作伙伴,在长三角地区拥有丰富的高功率机柜资源。公司与阿里云签订了长期合作协议,承接了阿里云大量的 AI 算力需求。H200 获批后,阿里云的算力扩容将带动数据港的业务增长。

光环新网(300383.SZ)是AWS 中国区的核心运营商,同时也服务字节跳动、腾讯等客户。公司在京津冀、长三角等核心区域拥有多个数据中心,高功率机柜储备充足。

07

字节出海,能否从根本上解决GPU卡点?

面对国内GPU供给的紧张局面,很多企业选择了出海的方式,在海外建设数据中心,采购英伟达的高端GPU。那么,出海能否从根本上解决GPU卡点问题呢?

深算派认为,出海可以在一定程度上缓解GPU供给的紧张局面,但无法从根本上解决问题。

首先,出海可以规避部分出口管制的限制。

美国的出口管制主要针对中国境内的企业和实体,对于中国企业在海外设立的子公司,管制相对宽松。因此,中国企业可以通过在海外设立子公司的方式,采购英伟达的高端GPU,建设数据中心,为全球用户提供服务。

其次,出海可以利用海外的能源和土地资源。

建设大型智算中心需要消耗大量的电力和土地资源。海外很多国家和地区拥有丰富的能源和廉价的土地,建设成本相对较低。例如,北欧国家拥有丰富的水电资源,气候寒冷,非常适合建设数据中心。

但是,出海也面临着诸多挑战和风险。

第一,出口管制的风险仍然存在。

美国的出口管制政策是不断变化的,未来有可能将中国企业在海外的子公司也纳入管制范围。例如,2025年美国就曾出台政策,限制中国企业通过海外子公司采购高端GPU。因此,出海并不能完全规避出口管制的风险。

第二,数据合规的风险。

不同国家和地区有不同的数据保护法规,如欧盟的GDPR、美国的CCPA 等。中国企业在海外建设数据中心,处理用户数据,必须遵守当地的数据保护法规。如果违反这些法规,可能会面临巨额罚款和业务暂停的风险。

第三,时延和成本的问题。

将数据中心建在海外,会增加国内用户的访问时延,影响用户体验。同时,出海建设数据中心还需要面临汇率波动、政治风险、文化差异等诸多问题,运营成本和风险都显著高于国内。

第四,无法解决国内业务的需求。

很多中国企业的主要市场在国内,它们需要为国内用户提供服务。根据中国的数据安全法,关键信息基础设施运营者在境内运营中收集和产生的个人信息和重要数据,应当在境内存储。因此,这些企业无法将核心业务转移到海外,出海只能解决部分海外业务的需求。

对于AIDC 企业来说,出海同样面临着机遇与挑战。润泽科技、万国数据等国内领先的AIDC企业已经开始布局海外市场。例如,万国数据在新加坡、马来西亚等地建设了数据中心;润泽科技也在规划海外数据中心项目。出海可以帮助这些企业拓展市场空间,分散经营风险。但同时,它们也需要面对当地市场的竞争、政策法规的差异、文化冲突等诸多挑战。

08

H200与华为昇腾950PR能否互补?

为了更直观地了解H200与国产高端GPU之间的差距,我们将H200 与华为昇腾 950PR进行了详细的对比。


从上表中可以看出,H200在单卡性能、显存带宽和生态成熟度方面具有明显优势;而昇腾950PR则在价格、自主可控和系统级优化方面具有优势。

另外,华为昇腾950PR的产能虽然已经翻了几倍,但每年75万颗的产量,还是不能完全满足市场需求。根据行业估算,2026年国内高端AI芯片的需求约为 250万颗,其中推理芯片需求约为180 万颗,训练芯片需求约为70 万颗。华为昇腾 950PR 的75万颗产量,加上其他国产厂商的约 30 万颗产量,国产芯片的总供给量约为 105 万颗,只能满足约 42% 的市场需求。

在这种情况下,放H200进来,不仅可以填补市场需求的缺口,还有利于我国算力产业的整体进步。H200 与国产GPU可以形成互补关系,H200用于关键在线推理业务,国产GPU用于政企和行业应用,共同构建一个多元化、多层次的算力供给体系。

后 记

H200获批是中美算力博弈进程中的一个重要里程碑,它为国内AI产业的发展提供了宝贵的缓冲期。短期来看,它将有效缓解国内高端算力的紧张局面,带动 AIDC、光模块、服务器等产业链环节的业绩增长。长期来看,它不会改变国产替代的大趋势,反而会刺激国产算力产业加速追赶。

中国的算力产业正处于一个关键的发展阶段。我们既要充分利用国际先进技术和资源,加快产业发展;也要坚定不移地推进自主可控战略,掌握核心技术。只有这样,我们才能在全球 AI 竞争中占据有利位置,实现 "算力即国力" 的战略目标。