大模型依赖算力“大力出奇迹” 2024世界人工智能大会与会人士建议发展分布式推理降低算力成本

发布者:广厦寒士 2024-7-12 19:14

央广网北京7月6日消息(记者吕红桥)据中央广播电视总台经济之声《天下财经》报道,2024世界人工智能大会6日继续举行。一场分论坛重点关注的是如何降低算力成本。对大模型来说,算力越大越好,业内形象地说是“大力出奇迹”,然而,大算力意味着巨大的成本。如何在满足算力需求的情况下,降低算力成本?业内人士和专家提出了解决方案。

训练大模型,有“大力出奇迹”的说法,也就是说,算力越大,大模型可能越完善。正因如此,有测算显示,大模型训练成本70%用于算力,推理成本95%用于算力。在当前“百模大战”的背景下,要让大模型训练可持续,就必须降低算力成本。对于降成本的路径,燧原科技创始人兼首席运营官张亚林在论坛上表示,可以把大模型的推理放到边端,通过分布式推理降低算力成本。

张亚林介绍:“中国不缺应用场景、大量的端侧和边侧设备,未来端侧和边侧设备一定具有很高算力,大家看到AI PC、AI Phone已经起来。如何做分布式推理?举个例子,目前主要的手机应用都是在云端做推理。如果手机端算力能够把简单任务做了,所有省下来的成本都归手机应用公司。如果能干掉50%的推理,就能省50%的成本。所以,中国未来一定是从边侧到端侧,再到云侧的分布式推理。”

对于降低算力成本,中国工程院院士、清华大学教授郑纬民之前表示,我国现在有多个国家挂牌的算力系统,有的系统还有空余算力,这些算力也可以用来训练大模型,并且成本很低。在这场论坛上,郑纬民进一步表示,从实际尝试来看,用原有算力系统富余的算力训练大模型,成本只有原来的六分之一。

郑纬民说:“我们试了一下,把我们的一套东西加到里面。比如‘八卦炉’是10个软件,把这10个软件加到机器上。目前‘八卦炉’已经在国产算力系统中成功移植百川、LLaMA等大模型,最后结果很不错。”

降低算力成本的另一个思路是提高算力的使用效率。单个大模型训练所用的算力规模非常大,一万张算力卡组成的“万卡集群”已经成为大模型预训练的最低配置。然而在实践中,“万卡集群”的使用效率经常在50%以下,也就是说,一半以上的算力都不能发挥出来。曦智科技首席技术官孟怀宇分析,这主要是因为算力卡之间的互联,也就是“南向”互联效率太低导致的。他表示,增加“南向”互联超节点的规模,可以大幅提升算力使用效率。

孟怀宇说:“当我们从万卡集群的角度来看的时候,实际上是‘南向’的超节点规模在一定范围之内越大,GPU的利用率就越高,得到的算力会越高。这样,整个集群在卡数不增加的情况下,会得到更高的性能,也就意味着性价比更高。根据结果显示,在GPU卡数不增加的情况下,32卡的南向节点相对于8卡来说,可以获得88%的性能提升。”

数据中心与算力降成本密切相关,当前,不少数据中心并没有形成畅通的盈利模式。张亚林认为,数据中心应该改变以往的建设、运营和应用模式。

张亚林表示:“以前的模式是先建设,再找运营,找了运营再找应用。现在应该是反过来,有人来使用才算得过来账,才能去找运营。有了运营,才能够说谁来建设。这才是中国AIDC(智算中心)商业模式最关键的健康生态。其实整个商业模式非常简单,算力卡月租多少钱?能不能按照月租费用把整个投入收回来?这其实是中国在算力上需要解决的问题。”

大家都在看