February 5, 2024

Nvidia成为SC23的赢家,却败在微软AI芯片手下

在2023 年超级计算大会上,虽然 Nvidia 的展台很小,在会场上展示的产品也很有限,但凭借其在人工智能领域的绝对优势,Nvidia 成为了赢家。

在其硬件合作伙伴的展台上,Nvidia 的标识贴满了整个会场。Nvidia 在人工智能领域的主导地位可能会继续保持下去,但企业也渴望找到替代方案。

微软 Maia AI 加速器和 ARM Cobalt CPU 将部署在其 Azure 云服务中(图源:微软)

Nvidia 的好消息不断,宣布有 40 多家科研机构采用其 GH200 芯片。该芯片包将新的 H200 GPU 与基于 Arm 的 Grace CPU 搭配使用。

超级计算中心表示,Nvidia 的 GPU 是满足其不断增长的计算需求的唯一加速计算选择。

不过,客户正在越来越多地评估其他可替代的 GPU 和 AI 芯片。

美国国家计算机科学中心(NCSA)发布了采用 GH200 芯片组的人工智能超级计算装置 DeltaAI。该大学还在评估来自 SambaNova 和其他 AI 芯片制造商的芯片。

Groq 和 Cerebras 等公司也在现场展示了自己的硬件。还有一些公司希望摆脱英伟达(Nvidia)的束缚,在耗电更少的情况下执行更多的人工智能任务。展会现场到处都是生产水冷产品来冷却 Nvidia GPU 的公司。

另一个针对 Nvidia 的惊喜远在 SC23 展会之外。

在 Ignite 大会上,微软发布了两款自研芯片: Maia AI Accelerator(用于生成式人工智能应用)和 Cobalt CPU(用于在其 Azure 云服务中部署的 ARM CPU)。微软的人工智能基础架构目前是基于Nvidia的 GPU 构建的,而新的人工智能芯片加速器可能会削减 GPU 的部署。

微软的 Eagle 服务器基于英伟达 GPU 运行,在 Top500 榜单中占据第三位。

这些芯片将在几个月后进入微软的数据中心,为微软Copilot或Azure OpenAI服务提供动力。这些服务目前由英伟达(Nvidia)GPU提供支持。

微软在一篇博客中说:"这些芯片是微软提供基础架构系统的最后一块拼图,其中包括从芯片选择、软件、服务器到机架和冷却系统的所有一切,这些系统都是自上而下设计的,可以根据内部和客户的工作负载进行优化。

Maia加速器更多用于推理,专为公司的人工智能基础设施而设计。微软表示,该芯片在优化功耗、性能、可持续性或成本方面提供了更大的灵活性。

微软表示:"Azure的端到端人工智能架构,现在通过Maia优化到了芯片,为训练能力更强的模型铺平了道路,并使这些模型对我们的客户来说更优惠。”

微软还宣布将增加用于推理的 Nvidia H200 GPU。该公司还宣布了基于 AMD MI300X GPU 的 ND MI300X 虚拟机。

0 comments:

VxWorks

Blog Archive