有史以来最强大的超级计算机正在为ChatGPT 5热身——数千个“老”AMD GPU加速器处理1万亿参数模型-东泰百科网

世界上最强大的超级计算机使用了超过8%的gpu来训练包含一万亿参数的大型语言模型(LLM)，与OpenAI的GPT-4相当。

位于橡树岭国家实验室(Oak Ridge National Laboratory)的Frontier公司使用了3072块AMD Radeon Instinct gpu来训练一个万亿参数规模的人工智能系统，并使用了1024块gpu(约2.5%)来训练一个1750亿参数的模型，其规模与ChatGPT基本相同。

根据他们的论文，研究人员至少需要14TB的RAM来实现这些结果，但每个MI250X GPU只有64GB的VRAM，这意味着研究人员必须将几个GPU组合在一起。然而，这以并行的形式引入了另一个挑战，这意味着随着用于训练LLM的资源的总体规模的增加，组件必须更好、更有效地进行通信。

法学硕士通常不是在超级计算机上训练的，而是在专门的服务器上训练的，需要更多的gpu。例如，根据TrendForce的数据，ChatGPT在超过20,000个gpu上进行了训练。但研究人员想要展示的是，通过利用超级计算机架构所带来的各种技术，他们是否可以更快、更有效地训练超级计算机。

科学家们使用了张量并行性(gpu组共享相同张量的部分)和管道并行性(gpu组托管相邻组件)的组合。他们还使用数据并行性来同时消耗大量令牌和大量计算资源。总体效果是实现了更快的时间。

对于220亿个参数模型，他们的峰值吞吐量为38.38% (73.5 TFLOPS)，对于1750亿个参数模型，他们的峰值吞吐量为36.14% (69.2 TFLOPS)，对于1万亿参数模型，他们的峰值吞吐量为31.96% (61.2 TFLOPS)。

他们还实现了100%的弱缩放效率%，1750亿参数模型的强缩放性能为89.93%，1万亿参数模型的强缩放性能为87.05%。

尽管研究人员对所使用的计算资源和所涉及的技术持开放态度，但他们忽略了以这种方式培训法学硕士所涉及的时间尺度。

TechRadar Pro向研究人员询问了时间安排，但他们在撰写本文时尚未作出回应。