比GPT-4快18倍,世界最快大模型Groq快速证伪?

发布者:天天小戒 2024-2-23 18:19

今天讨论了一天的groq,结论就是同样完成LLaMA 70b 模型推理,采用 int8 量化,运行三年的话,Groq 需要的硬件采购成本是576卡1144 万美元,运营成本是 76.2 万美元或更高。H100的硬件采购成本是 8卡30 万美元,运营成本是 7.2 万美元或略低。

为什么需要576张,有海外大神专门算过,另一位技术大牛也做了类似的计算,groq没有显存仅仅靠SOC SRAM,假设有230MB的SRAM , 运行一个INT8的 llama-70B=70GB/0.23GB = 305张卡,考虑到SRAM利用率等各种问题,预计需要320张卡,每个服务器智能插入8张卡,分摊成本每张卡不低于2500$(卡0元计算),也就是服务器40台+交换机, 大概150万美元可以运行llama-70B。如果换成A100的8卡,大概INT8能够做到100token/s.,也就是120万人民币投入。

结论就是,Groq看起来效果惊人,但一算TCO,根本不具有经济性...那个效果吓人的视频,揣测下,是不计成本的堆卡堆出来的。诚然这个架构有其特点,比如NV大佬提到的针对bs1做了优化,的确在小batch size尤其是bs1显示出了优势,但可能也就在小模型、本地或者线上定制化推理服务能有限场景,一旦到了云端大规模集群推理,就不可用了,尤其是GPU或者大厂ASIC被充分优化、且利用率又比较高的场景。

这个路子是否成立都是个问号,groq还有个前辈graphcoe,其sram是groq的2.5倍,现在公司生意都快没了(除了前两天融资)...最致命的问题是,这种架构仅存只有SRAM(没错,这是短板...先不管你股票咋炒的)。

目前的计算架构存储层级是这样的,register file->SRAM->HBM->DDR->NAND->不常用的数据还可以offload到Disk,从左到右速度和和带宽都在降低,比如access SRAM 带宽认为约等于无限 一次ACCESS 2ns delay (先进工艺下),Acess HBM可能是几个micro second,Access NAND是milli second量级。但从左到右单bit的成本在依次降低。

说白了,最左边,无限快,但你用不起,往右边,贼便宜,但不够快。而目前LLM大家天天念叨的内存墙瓶颈,尤其是推理只做一次前向计算所有的参数要遍历一遍,因此需要

1)存的足够大;

2)读取也要足够快。

结论:LLM需要的存储要在成本可控的前提下,在速度和容量之间做一个折中和平衡。因此才有了HBM的大规模应用,这是产业的选择(最早是AMD),综合考虑了量产难度、成本、速度、工程实现性等等。下一步最多如大家讨论的HBM4与逻辑堆叠或者chiplet,但你说换掉HBM?步子迈太大了...不管存内计算近存计算存内处理,一旦到了工程实现性、良率就不吱声,再考虑经济性就歇菜。

我会在 公众号:海涵财经 每天更新最新的华为概念、创新减肥药、数字经济、ChatGPT、AI算力、CPO/硅光芯片、大数据、6G卫星、数据要素、医疗新基建、一体化压铸、 汽车智能化,激光雷达,HUD,车规芯片,空气悬挂、L3级智能驾驶、PET铜箔,纳电池,800V高压,光伏HJT、TOPCON、钙钛矿、光伏XBC、BIPV、IGBT芯片、碳化硅SIC、CTP/CTC/CTB电池、4680电池、工业母机、海风柔直高压、新能源车高压快充、高镍三元、碳纤维、PET铝箔、PET铜箔、空气源热泵、新材料、中药创新药、中药配方颗粒、乡村振兴、锂矿、钒液流电池、钠离子电池、分布式储能、集中式储能、抗原检测等最新题材热点挖掘,未来属于高预期差的结构性市场,把握核心赛道以及个股的内在价值逻辑预期差才是根本所在。

— END —

先赞后看,养成习惯

免责声明:图片、数据来源于网络,转载仅用做交流学习,如有版权问题请联系作者删除

大家都在看