April 27, 2024

英伟达用于AI训练的Eos超级计算机

去年11月,Nvidia凭借一款名为Eos的系统突然出现在全球最快超级计算机500强榜单的第9位,引起了一些人的注意。Eos是以每天打开黎明大门的希腊女神命名的,是英伟达的企业级AI训练系统,该公司现在首次发布了一段视频向公众展示它。

Eos本质上是英伟达自己的超级计算机,员工每天都可以用它来进行AI训练,或者在午休时间玩《孤岛危机》。它包括一个由576台DGX H100服务器组成的集群,由于每台服务器都有8个H100 GPU,因此总共有4608台H100与其Quantum-2 InfiniBand技术连接在一起。这基本上是英伟达展示其DGX SuperPod设计的极端版本,是一种企业规模的AI训练,它希望将其出售给拥有巨额预算和大量AI模型的公司。

英伟达将Eos描述为一个可以为“AI工厂”提供动力的系统,因为它是一个非常大规模的SuperPod DGX H100系统。该公司表示,正是这一点让它能够在AI方面有所突破,并展示了英伟达最新技术在放大到超大规模时的强大功能。

DGX H100服务器使用英特尔Xeon Platinum 8480C CPU,具有56核和112线程。与4608个H100 GPU相结合,它提供了121 PetaFLOPS的Linpack性能,仅足以在Top500中排名第9,但这更像是一个通用指标。如果纯粹以AI训练来衡量,它很容易成为目前世界上最快的系统之一。

当该系统去年首次亮相时,英伟达展示了比之前基于Ampere的A100系统的巨大改进。例如,在一个模拟训练GPT-3模型的测试中,Eos只花了4分钟,而基于A100的系统花了11分钟。然而,之前的系统只使用512个GPU,而Eos更大、使用更强大的GPU,所以预期会有显著的提升。

然而,我们在研究英伟达的最新声明时发现了一个差异。早在2023年11月,英伟达就表示Eos配备了10,752个H100 GPU。在最新的公告中,这个数字已经减少到4608,所以我们不确定发生了什么变化,或者Eos是否已经缩小了一些。

我们通过电子邮件向英伟达寻求澄清,一位发言人回应说:“为了提供一些清晰的信息,用于MLPerf LLM训练的超级计算机具有10,752个H100 GPU,是使用相同DGX SuperPOD架构构建的不同系统。在2023年TOP500榜单上排名第九的系统是现在博客和视频中介绍的4608 GPU Eos系统。”

当问及为什么这两个系统都被命名为Eos时,发言人回答说:“我们在Eos一代中部署了多个系统,它们都基于相同的NVIDIA DGX SuperPOD架构。”

原文链接:


https://www.extremetech.com/computing/nvidia-unveils-its-eos-supercomputer-for-ai-training

0 comments:

Post a Comment

VxWorks

Blog Archive