2026年4月24日,DeepSeek-V4大模型正式发布并开源,华为云成为首发适配厂商,同步上线高性能推理服务,大幅降低超长上下文使用门槛。

DeepSeek-V4具备百万Token超长上下文能力,在Agent智能体、世界知识与推理性能上达到国内及开源领域领先水平。本次推出的DeepSeek-V4-Flash版本参数优化至284B,参数与激活占用更小,推理成本显著降低,可提供更快捷、经济的API服务,真正实现百万上下文普惠。

适配期间,华为云从系统、算子、集群三层协同发力,在调度效率、计算效率、数据流转效率三大维度全面保障模型快速落地。华为云首发适配分层注意力压缩机制,实现KVCache高效管理,并提供TopK、SWA、CFA等10+昇腾高性能融合算子,结合框架异步调度、MTP多步投机等优化,支持原生1M长上下文高性能推理。

目前,华为云MaaS模型即服务平台已开放免部署、一键调用能力,开发者可直接接入DeepSeek-V4-Flash API,快速构建AI应用。