世界最快E级超算仅使用 8% 的 GPU 快速完成万亿参数大模型训练

发布者:秦时明月 2024-1-8 12:17

美国橡树岭国家实验室的Frontier是全球第一台达到百亿亿次级(E级)超级计算机。也是目前全球最快的超级计算机。Frontier 超级计算机配备了9,472 个 Epyc 7A53 CPU 和37,888 个 Radeon Instinct 37,888 个GPU。

橡树岭国家实验室的研究人员在Frontier 超级计算机上训练了一个 ChatGPT 大小的大型语言模型 (LLM),只需要其 37,888 个GPU 中的 3,072 个即可完成。该团队发表了一篇研究论文,详细介绍了它如何完成这一壮举以及在此过程中面临的挑战。

然而,该团队仅使用 3,072 个GPU 来训练具有 1 万亿个参数的 LLM,并使用1,024 个 GPU 来训练另一个具有1,750 亿个参数的 LLM。

该论文指出,训练如此大的LLM的关键挑战是所需的内存量,至少为14 TB。这意味着需要使用多个具有 64GB VRAM 的MI250X GPU,但这带来了一个新问题:并行性。在 LLM 上投入更多GPU 需要越来越好的通信才能有效地使用更多资源。否则,大部分或全部额外的 GPU 马力将被浪费掉。

这篇研究论文深入探讨了这些计算机工程师是如何做到的,他们迭代了Megatron-DeepSpeed 和 FSDP 等框架,以便培训计划在Frontier 上以最佳方式运行。最终,结果令人印象深刻——弱扩展效率为100%,这基本上意味着随着工作负载大小的增加,更多的 GPU 被尽可能高效地使用。

同时,1750亿参数 LLM 的强扩展效率略低,为89%,1 万亿参数 LLM 为87%。根据 Amdahl 定律,强扩展是指在不改变工作负载大小的情况下增加处理器数量,这往往是更高核心数量变得不那么有用的地方。考虑到他们使用了多少GPU,即使是 87% 也是一个不错的结果。

然而,该团队指出,在 Frontier 上实现这种效率存在一些问题,并指出“需要做更多的工作来探索AMD GPU 上的高效训练性能,而 ROCm 平台很少。正如该论文所说,这种规模的大多数机器学习都是在英伟达的CUDA软硬件生态系统中完成的,相比之下,AMD和英特尔的解决方案还不够发达。当然,这样的努力将促进这些生态系统的发展。

尽管如此,世界上最快的超级计算机仍然是 Frontier,它拥有全 AMD 硬件。排在第二位的是Aurora,其纯英特尔硬件,包括GPU,尽管目前只有一半用于基准测试提交。Nvidia GPU 为第三快的超级计算机 Eagle 提供动力。如果AMD和英特尔想要以这种方式保持排名,两家公司将需要赶上英伟达的软件解决方案。

大家都在看