马斯克在其X社交平台上宣布,xAI团队、X团队、英伟达及支持公司于当地时间7月22日凌晨4时20分开始在孟菲斯超级集群上(Memphis Supercluster)进行训练。
据马斯克介绍称,该集群在单个RDMA fabric上使用10万张液冷H100,是“世界上最强大的AI训练集群”。其目标是在今年12月前训练出“按每项指标衡量都是世界上最强大的人工智能。”
马斯克此前曾表示,xAI计划于8月发布Grok 2,但目前并未宣称利用新的超级计算集群训练Grok 2。不过,确定的是计划于2024年底发布的Gork 3将在孟菲斯超级训练集群进行训练。本月早些时候,马斯克在X的一篇文章中指出,xAI的Grok 3将在100,000个 H100 GPU上进行训练,因此“它应该非常特别”。
从规模上看,新的xAI孟菲斯超级集群确实在GPU算力方面超越了最新Top500榜单上的任何一台超级计算机。如Frontier(37,888 个 AMD GPU)、Aurora(60,000个Intel GPU)和Microsoft Eagle(14,400个Nvidia H100 GPU),似乎都远远落后于xAI机器。
尽管规模庞大,但“世界上最强大的AI训练集群”的名头难以长期保持。
目前,微软、谷歌和Meta等其他科技巨头也都在扩建数据中心来训练和运行他们的人工智能模型。路透社曾报道称,微软和OpenAI正在计划建设一个数据中心项目,该项目将包含一个拥有数百万专用服务器芯片的超级计算机,而目前项目耗资可能1150亿美元,包括一个名为 Stargate(「星际之门」)的人工智能超级计算机,预计将于2028年启动。
Meta首席执行官扎克伯格也在今年一月份表示,到2024年底,公司的计算基础设施将包括3万张H100显卡。他还补充道,“如果包括其他GPU,则大约有60万台H100等效计算。”
此外,除了算力竞争激烈的外患以外,xAI建设算力中心的内忧也一直存在。
据孟菲斯当地媒体报道,xAI将在占地785,000平方英尺的前伊莱克斯孟菲斯工厂建造一个超级计算机集群,“将是该市历史上一家新进入市场的公司最大的资本投资。”
负责这笔交易的经济增长非营利组织大孟菲斯商会会长泰德·汤森称,经过3月份几天的激烈谈判,马斯克和他的团队(其中包括来自他几家公司的代表)选择了田纳西州的孟菲斯市,因为这里电力充足,而且建设速度快。
然而,xAI还没有与当地公用事业公司田纳西河谷管理局(Tennessee Valley Authority)签订合同,“TVA 尚未与xAI签订合同。我们正在与xAI和MLGW的合作伙伴就提案和电力需求的细节进行合作。”TVA还指出,任何超过100兆瓦的项目接入电力系统都需要TVA批准。
尽管大孟菲斯商会团体赞扬xAI在该地区开设设施的决定,但一些当地人对该设施的能源和水消耗表示担忧。孟菲斯社区反污染组织和其他两个环保组织警告说,计算机设施会造成严重的“能源负担”。他们表示,“xAI预计每天至少需要一百万加仑的水用于其冷却塔。”
孟菲斯市议会的几名成员正敦促政府停止马斯克算力工厂在孟菲斯建设,因为社区对这笔交易的秘密性质以及数据中心对电力和水的要求越来越担忧。
(文章来源:科创板日报)