截至2024年6月26日,全球顶级超级计算机配置的GPU规模通常不超过5万片。AMD,这家半导体行业的巨头,正计划通过部署一个前所未有的庞大项目,即构建一个集成高达120万片GPU的数据中心人工智能集群,来大幅增强其在高性能计算领域与英伟达的竞争力。
在接受 The Next Platform 采访时,AMD 数据中心解决方案集团执行副总裁兼总经理 Forrest Norrod 表示,公司正在认真考虑构建最大规模的 AI GPU 集群。
注:AI 训练集群通常由数千片 GPU 构建,通过高速互连连接服务器机架,而 AMD 正研究的 120 万片无疑在数量级上指数倍增长,这必然带来延迟、功耗、硬件故障等多方面的挑战。
全球最强超级计算机 Frontier “只有”37888 片 GPU,因此 AMD 勾勒的 AI 集群是当前最强超级计算机数量的 30 倍。
文明上网,理性发言,共同做网络文明传播者