May 4, 2024

AMD MI300A在测试中超出H100四倍

AMD Instinct MI300A 是AMD公司开发的一款高性能APU(Accelerated Processing Units),结合了CPU和GPU的功能,专为高性能计算(HPC)和人工智能应用而设计。这种处理器的设计目的是提供强大的计算能力,以支持大规模科学计算和数据密集型任务。

关于对AMD Instinct MI300A APU 的简要特性:

  • 首款集成 CPU 和 GPU 的组件
  • 面向大规模超级计算机市场
  • 包含 1530 亿个晶体管
  • 多达 24 个 Zen 4 核心
  • 基于 CDNA 3 GPU 架构
  • 最高 192 GB HBM3 内存
  • 包括多达 8 个芯片组和 8 个内存堆栈(采用 5 纳米和 6 纳米工艺)

与传统的独立 GPU 相比,AMD 的 Instinct MI300A APU 在高性能计算(HPC)工作负载中实现了巨大的性能提升。Instinct MI300A 实现了多年前提出的“Exascale APU”平台概念,该平台将高性能 GPU 和 CPU 集成在同一芯片封装中,并共享统一内存池。对于高性能计算而言,这种加速器/协处理器设计不仅提升了每瓦特性能,但同时也需要进行大量的代码移植、优化和维护工作,这可能涉及数百万行代码,是一项具有挑战性的工作。研究人员已经开始利用 OpenMP 和 OpenACC 这两种流行的编程模型,充分发挥 AMD 下一代 APU 的性能潜力。

在一篇题为《使用统一内存和 OpenMP 将 HPC 应用程序移植到 AMD Instinct MI300A》的研究论文中,科学家利用 OpenFOAM 框架(这是一个开源 C++ 库),提供了在 MI300A APU 上移植代码的灵活性和便捷性的蓝图,并详细阐述了使用 OpenFOAM 对原来系统进行加速的方法。得益于 AMD Instinct MI300A 加速器的统一 HBM 接口,数据无需复制,也无需区分主机与设备的内存编程。此外,AMD 的 ROCm 软件套件提供了额外的优化功能,有助于整合 APU 的各部分,形成一个连贯的异构系统。因此,性能得到了极大提升。

在采用 OpenFOAM 的 HPC 循环基准测试中,AMD Instinct MI300A APU 与 AMD Instinct MI210、NVIDIA A100 80 GB 和 NVIDIA H100 (80 GB) GPU 进行了比较。在这些测试中,AMD GPU 运行在 ROCm 6.0 协议栈上,而 NVIDIA GPU 则在 CUDA 12.2.2 上运行。此基准配置为运行 20 个时间步长,以每个时间步长的平均执行时间为性能指标。

测试结果显示,AMD Instinct MI300A APU 的性能是 NVIDIA H100 系统的四倍,是 Instinct MI210 加速器的五倍。在 APU 上,由于 CPU 核心与 GPU 计算单元共享统一物理内存,完全消除了页面迁移的开销,因此性能大幅提升。

研究还发现,采用单个 Zen 4 CPU 封装的 AMD Instinct MI300A 运行速度是采用独立 GPU 解决方案的单插槽 Zen 4 CPU 的两倍。当在 MI300A APU 上超载多个进程后,性能进一步提高了两倍,显示出超过传统 dGPU+dCPU 配置的可扩展性。

由此看来,AMD Instinct MI300A APU 在高性能计算领域的计算能力将无人能及。尽管 NVIDIA 在其下一代 Blackwell 阵容中已经转向强调人工智能性能,AMD 通过其 MI300X 加速器及未来的产品更新,将在 HPC 领域继续保持领先。

0 comments:

Post a Comment

VxWorks