February 8, 2024

GPU供需压力与全球能源挑战

GenAI的“GPU供需紧张"会直接导致可用性降低,无论是直接采购还是云端访问,这都会增加成本并刺激需求增长。

一个持续发酵的问题是,即使企业已经获得了一些带有GPU的设备,那么如何为它们提供电源并合理部署呢?

例如,以前很多大学会在校园数据中心配置新设备。但现在,许多数据中心已经“满负荷”,没有多余的空间或供电能力。目前,“GPU机架”的预计功耗范围是每个机架50到100千瓦,相比之下,以前的“CPU机架”每个只需要10-17千瓦。如果要共享4个GPU机架,找到一个能提供400千瓦电源的数据中心会相当困难。

对于那些提供高性能计算(HPC)共享服务的小公司而言,也面临着同样的挑战。他们发现现有的数据中心已经饱和,不得不寻找新的空间和供电资源。对于那些无法建立整个数据中心园区的大型企业来说,这是一项巨大的挑战。

房地产投资和管理公司JLL最近发布的《2024数据中心全球展望》报告中,揭示了一些引人注目的趋势。该报告深入探讨了如何设计、运营和扩展数据中心,以满足全球经济不断增长的需求,特别是对于GPU密集型GenAI集群所需的增加功率。

随着人工智能的推动,预计短期内经济增长将持续。未来五年内,预计消费者和企业生成的数据量将是过去十年的两倍。

除了GPU计算需求外,随着生成式AI需求的不断增长,数据中心存储容量预计将从2023年的10.1ZB增长到2027年的21.0ZB,五年内复合年增长率达到18.5%。这种存储容量的激增将引发对更多数据中心的需求,而生成式AI对能源的更大需求——每个数据中心园区范围从300到500+兆瓦——也将要求更具能效的设计和选址。对更多电力的需求将迫使数据中心运营商提高效率,并与地方政府合作寻找可持续的能源来源来支持数据中心的不断增长的需求。

根据最新报告,专为人工智能设计的数据中心与传统设施存在显著差异。运营商可能需要针对处理的数据类型或AI开发阶段来规划、设计和分配电力资源。在散热方面,GPU的大规模增加将打破现有的标准。在一般的数据中心中,空气冷却通常占据平均电力使用的约40%。用户,尤其是超大规模和运营商,正在从传统的基于空气冷却的方法转向液体冷却和后门热交换器。实际案例研究表明,液体冷却能显著降低功耗,高达90%,同时提高性能并允许更密集地打包系统,从而增加机架功耗。

超大规模企业作为人工智能和高性能计算(HPC)领域的领头羊,对高密度基础设施有着迫切需求(详见下表)。目前,他们的大型设施平均每机架密度预估为36千瓦。随着液体冷却密度的提高和GPU硬件IDC的增长,预计在未来几年将以7.8%的复合年增长率增长,到2027年接近每个机架50千瓦。

在接受采访时,房地产投资和管理公司JLL的美国数据中心市场总监安迪·克文格罗斯谈到了许多影响数据中心部署的问题。

他首先强调了规划的重要性。克文格罗斯举例说,由于电力网络已经基本饱和,且变压器的交货周期已经超过三年,运营商们不得不寻求新的创新方案。

此外,他还提到了GPU供需紧张在数据中心层面的快速发展所带来的影响。这一趋势使得一个包含4-5个机架的小型共享部署在数据中心中越来越难以找到合适的位置,因为超大规模企业正在争夺整个数据中心校区的控制权。

根据克文格罗斯的观点,主要的大都市地区基本上都已经饱和,而一些次要地区,如内华达州的里诺或俄亥俄州的哥伦布,现在正成为新数据中心建设的主要选址。预计需求将持续增长,但新的数据中心建设还需3.5年才能完成。他再次强调:“规划至关重要。”

他建议与专门从事小型HPC GPU集群共用高性能系统的公司合作(例如,缺乏电力和空间的大学)。根据他的经验,数据中心提供商必须积极地跟踪使用情况和全球机会的可用性,以提供任何近期的共用能力。

数据中心的供需压力问题是一个全球性的挑战。JLL的报告还提到了全球范围内需要进行的重大变革,以应对不断增长的能源使用。

在欧洲,三分之一的电网基础设施已超过40年历史,为了实现欧盟的绿色目标,预计到2030年需要投资5840亿欧元。

在美国,要实现能源过渡目标,升级电网并将更多可再生能源纳入电力供应预计需要2万亿美元。

数据中心的快速扩张也在许多国家给有限的能源资源带来了压力。例如,在新加坡,政府已颁布禁令,暂停在某些地区建设数据中心,以仔细审查新的数据中心提案,并确保它们符合该国的可持续发展目标。

全球GenAI的能源“需求”为数据中心行业带来了前所未有的机遇和挑战。GenAI的能源需求规模前所未有。寻找用于HPC的GPU只是问题的一半;如何安置这些GPU可能会成为更大的挑战。

0 comments:

VxWorks

Blog Archive