大模型的基础设施如何建先要搭千卡万卡规模的网络架构

发布者:温柔老农 2023-5-27 19:46

生成式人工智能(AI)作为一项划时代的技术,经历了巨大的变革和发展。百度杰出系统架构师王雁鹏在深圳的文心大模型技术交流会上表示,生成式AI最显著的特点是模型规模巨大,过去几年以每年10倍的速度增长。生成式AI的智能计算基础设施是一个庞大而复杂的系统,需要从网络架构、存储、加速层、框架和容错等多个方面进行设计和优化。通过这些努力,可以为大规模的生成式AI应用提供稳定、高效且易用的计算基础设施。以往的AI应用中,许多训练任务都可以在单卡或单机上完成,但在大模型时代,完成一个任务需要使用上千甚至上万张显卡。王雁鹏认为,在如此巨大的计算能力需求下,智能计算基础设施的设计范式发生了转变。

一、要构建万卡规模的大模型基础设施,有四个关键点需要关注:

1.需要构建智能计算集群,能够支持高速互联并具备各种异构算力,如中央处理器(CPU)和图形处理器(GPU)等。这需要保证高效的卡间通信。

2.仅有强大的硬件能力并不足以取得良好效果。优化软件堆栈非常重要,优化的结果将体现在训练和推理性能上的加速。

3.高性价比是一个重要考虑因素。构建这样的系统需要合理的技术选择,不一定选择最昂贵的解决方案。合理分层存储和计算,并追求更高的性价比。

4.易用性是前所未有的挑战。在万卡规模下,稳定运行、弹性容错以及一站式应用的易用平台都是重要问题。

百度智能云副总裁朱勇透露,自百度的文心一言技术在3月16日开始内测以来,通过算法和模型的持续优化,其在企业服务中高频场景下的推理性能已经提升了50倍。为了实现这一结果,王雁鹏从技术角度解释了过去一个月的工作和新的技术范式转变。王雁鹏指出,生成式AI是一项跨越式的技术,和以前的技术有了巨大的变革。其最显著的特点是模型规模庞大,每年以10倍的速度增长。之前的AI应用中,许多训练任务可以在单卡或单机上完成,但在大模型时代,需要上千张或上万张卡来完成一个任务。

增加模型规模并不能很好地提升模型的效果和性能,还需要相应地增加数据量级。大模型的数据量级是指数级增长的,这类似于摩尔定律。以前摩尔定律需要每年翻一番,现在大模型的"摩尔定律"更快,大约每8到10个月翻一番。与原来的摩尔定律不同的是,大模型不仅需要芯片的能力,还需要整个芯片、框架和系统的全栈优化。在这种巨大的算力需求下,智能计算基础设施的设计发生了变革。

二、构建万卡规模的网络架构

在如此大规模下,保证网络的扩展性和避免拥塞是非常困难的。大模型的通信特点是有很多集合通信的操作,这可以分解成同号卡之间的集合通信。为了解决这个问题,需要优化网络架构,在同号卡之间建立高速通信通道,以提高整体网络的吞吐量并消除拥塞和冲突的可能性。

除了计算方面,存储也是另一个关键问题。需要具备大容量和高速度,因此设计了多级存储系统。大量数据存储在对象存储系统中,高速训练时需要充当缓存系统的角色。

三、加速层

对于AI训练来说,计算过程非常复杂,包括IO预处理、IO读取、各种算子的高性能实现和优化,以及通信的优化和显存利用率。需要在训练加速套件中整合整个软件栈。对于推理加速套件来说更加重要。推理过程对大模型来说是一个巨大的挑战。通过集中攻关和软件优化,百度在文心一言发布后的一个月时间内,使推理性能提高了50倍。

大家都在看

  • 借助元宇宙,探索星辰大海的奥秘

    借助元宇宙,探索星辰大海的奥秘 借助元宇宙探索星辰大海的奥秘。仰望星空,每一颗星都是一个独特世界吗?它们如何诞生和演化?又将走向何方?宇宙中的暗物质和暗能量是什么?又如何影响宇宙的结构和演化?太空时间和地球时间是同一个概念吗?太空存 ... 宇宙探索11-07

  • “航空”助力“航天”,携手共进探索无尽宇宙

    “航空”助力“航天”,携手共进探索无尽宇宙 10月30日,神舟十九号载人飞船成功发射。此前的29日,据神舟十九号任务发布会介绍,由中国航空工业集团成都所自主研制的昊龙货运航天飞机“昊龙一号”入围空间站低成本货物运输系统总体方案,获得工程飞行验证阶段合 ... 宇宙探索11-06

  • 太空探索的风险:宇宙辐射、极端温度、真空环境的威胁

    太空探索的风险:宇宙辐射、极端温度、真空环境的威胁 我刚下班回到家,就迫不及待地坐到书房的电脑前,想要好好聊聊关于神舟十八号的那些事儿。咱国家的航天事业发展速度那简直像火箭一样快!这神舟十八号都成功返航了,厉害啦!可看到航天员被抬出返回舱,心里又揪了一 ... 宇宙探索11-06

  • 神舟18号返回全程解析:从太空返地的每个关键步骤

    神舟18号返回全程解析:从太空返地的每个关键步骤 2024年11月4日凌晨,神舟18号载人飞船成功返回了地球,三名航天员叶光富、李聪、李广苏安全着陆在东风着陆场。这一壮丽的航天壮举,不仅代表着中国航天技术的又一次飞跃,更是一次充满挑战与惊险的太空之旅。整个返 ... 宇宙探索11-05

  • 宇宙探索与生命奥秘:从银河中心到茶杯

    宇宙探索与生命奥秘:从银河中心到茶杯 银河系中心是最混乱的区域。詹姆斯·韦伯太空望远镜以其前所未有的红外视角,在这一拥挤动荡的区域中发现了新的特征。这张图像展示的恒星形成区域被称为人马座C,距离银河系中心超大质量黑洞人马座A仅三百光年。照片 ... 宇宙探索11-05

  • 揭秘太空里发现五具浮尸是谁?

    揭秘太空里发现五具浮尸是谁? 在浩瀚的太空当中曾经发现过五具浮尸他们分别是苏联的三名宇航员格奥尔基多博罗奥夫斯基、帕克拖帕托查耶夫和弗拉季斯拉夫沃尔科夫,美国的科学家尤金舒梅克和冥王星之父克莱德威廉汤博。 苏联的联盟11号飞船在1971 ... 宇宙探索11-04

  • PandaX暗物质实验首席科学家刘江来:我们对宇宙知之甚少,探索永无止境

    PandaX暗物质实验首席科学家刘江来:我们对宇宙知之甚少,探索永无止境 【环球网科技综合报道】11月4日上午,第十二届腾讯科学WE大会在成都科幻馆成功举办。本次大会汇聚了五位世界顶级科学家,他们分别是国家最高科学技术奖获得者、中国科学院院士、南方科技大学校长、清华大学教授薛其 ... 宇宙探索11-04

  • 我国空间站大揭秘:宇宙探索的“中国力量”

    我国空间站大揭秘:宇宙探索的“中国力量” 文|乐天科技编辑|乐天科技先别急,我是今晚的导游,大家可以叫我小石头。现在就让我们仔细看看这个壮丽的工程。走进这座空间站的背后故事,它全程由我们自己独立建造,从发射到组装,再到调试,每一步都由我们独立完 ... 宇宙探索11-04

  • 你有没有想过,宇宙中竟然存在着个直径达到 2.5 亿光年的超级空洞

    你有没有想过,宇宙中竟然存在着个直径达到 2.5 亿光年的超级空洞 你有没有想过,宇宙中竟然存在着一个直径达到 2.5 亿光年的超级空洞——牧夫座空洞?这巨大的虚空,难道真如一些人猜测的那样,是两个文明战争的痕迹?别急,先点个赞,现在跟你说说!!首先,我们来看看牧夫座空洞 ... 宇宙探索11-03

  • 人工智能与宇宙探索,如何相互推动发展?

    人工智能与宇宙探索,如何相互推动发展? 当我们仰望星空,对宇宙的无尽奥秘充满好奇与渴望时,人工智能正逐渐成为我们探索宇宙的强大助力,而宇宙探索的需求也在反过来推动着人工智能的发展,二者相互交融,共同开启了人类认知的新纪元。人工智能为宇宙探索 ... 宇宙探索11-03