大模型依赖算力“大力出奇迹” 2024世界人工智能大会与会人士建议发展分布式推理降低算力成本

发布者：广厦寒士 2024-7-12 19:14

央广网北京7月6日消息（记者吕红桥）据中央广播电视总台经济之声《天下财经》报道，2024世界人工智能大会6日继续举行。一场分论坛重点关注的是如何降低算力成本。对大模型来说，算力越大越好，业内形象地说是“大力出奇迹”，然而，大算力意味着巨大的成本。如何在满足算力需求的情况下，降低算力成本？业内人士和专家提出了解决方案。

训练大模型，有“大力出奇迹”的说法，也就是说，算力越大，大模型可能越完善。正因如此，有测算显示，大模型训练成本70%用于算力，推理成本95%用于算力。在当前“百模大战”的背景下，要让大模型训练可持续，就必须降低算力成本。对于降成本的路径，燧原科技创始人兼首席运营官张亚林在论坛上表示，可以把大模型的推理放到边端，通过分布式推理降低算力成本。

张亚林介绍：“中国不缺应用场景、大量的端侧和边侧设备，未来端侧和边侧设备一定具有很高算力，大家看到AI PC、AI Phone已经起来。如何做分布式推理？举个例子，目前主要的手机应用都是在云端做推理。如果手机端算力能够把简单任务做了，所有省下来的成本都归手机应用公司。如果能干掉50%的推理，就能省50%的成本。所以，中国未来一定是从边侧到端侧，再到云侧的分布式推理。”

对于降低算力成本，中国工程院院士、清华大学教授郑纬民之前表示，我国现在有多个国家挂牌的算力系统，有的系统还有空余算力，这些算力也可以用来训练大模型，并且成本很低。在这场论坛上，郑纬民进一步表示，从实际尝试来看，用原有算力系统富余的算力训练大模型，成本只有原来的六分之一。

郑纬民说：“我们试了一下，把我们的一套东西加到里面。比如‘八卦炉’是10个软件，把这10个软件加到机器上。目前‘八卦炉’已经在国产算力系统中成功移植百川、LLaMA等大模型，最后结果很不错。”

降低算力成本的另一个思路是提高算力的使用效率。单个大模型训练所用的算力规模非常大，一万张算力卡组成的“万卡集群”已经成为大模型预训练的最低配置。然而在实践中，“万卡集群”的使用效率经常在50%以下，也就是说，一半以上的算力都不能发挥出来。曦智科技首席技术官孟怀宇分析，这主要是因为算力卡之间的互联，也就是“南向”互联效率太低导致的。他表示，增加“南向”互联超节点的规模，可以大幅提升算力使用效率。

孟怀宇说：“当我们从万卡集群的角度来看的时候，实际上是‘南向’的超节点规模在一定范围之内越大，GPU的利用率就越高，得到的算力会越高。这样，整个集群在卡数不增加的情况下，会得到更高的性能，也就意味着性价比更高。根据结果显示，在GPU卡数不增加的情况下，32卡的南向节点相对于8卡来说，可以获得88%的性能提升。”

数据中心与算力降成本密切相关，当前，不少数据中心并没有形成畅通的盈利模式。张亚林认为，数据中心应该改变以往的建设、运营和应用模式。

张亚林表示：“以前的模式是先建设，再找运营，找了运营再找应用。现在应该是反过来，有人来使用才算得过来账，才能去找运营。有了运营，才能够说谁来建设。这才是中国AIDC（智算中心）商业模式最关键的健康生态。其实整个商业模式非常简单，算力卡月租多少钱？能不能按照月租费用把整个投入收回来？这其实是中国在算力上需要解决的问题。”

2019世界人工智能大会张亚林软件 GPU

上一篇：80年代八一厂“8朵金花”今昔：有人三婚嫁老外，有人负债变老赖

下一篇：2024年全国城市十大热门商业步行街！有你认识的吗？