比GPU性价比高百倍!Cerebras推出AI推理服务,号称“全球最快”

发布者:贫在闹市 2024-9-9 20:20

编译 | Vendii
编辑 | 漠影

智东西8月28日消息,AI芯片独角兽Cerebras Systems于8月27日宣布推出AI推理服务Cerebras Inference,号称“全球最快”。该服务已经在云端上线。

据官网介绍,该推理服务在保证精度的同时,速度比英伟达的服务快20倍;其处理器内存带宽是英伟达的7000倍,而价格仅为GPU的1/5,性价比提高了100倍。Cerebras Inference还提供多个服务层次,包括免费、开发者和企业级,满足从小规模开发到大规模企业部署的不同需求。

用户可直接在官网上的交互界面进行体验,也可调用API。

体验地址:https://inference.cerebras.ai/

Cerebras Systems成立于2016年,团队由计算机架构师、计算机科学家、深度学习研究人员和各种工程师组成。该公司以其创新的晶圆级芯片(Wafer Scale Engine, WSE)而闻名,这些芯片专为AI计算而设计,具有巨大的尺寸和性能。

这家芯片独角兽曾经得到多个知名投资者的支持,其中包括OpenAI联合创始人Sam Altman、AMD前CTO Fred Weber等。截至2021年11月,该公司完成了2.5亿美元的F轮融资,估值达到40亿美元。

一、性价比远超英伟达:速度快20倍,价格仅为1/5

AI推理指的是在训练好一个AI模型之后,使用这个模型对新的数据进行预测或决策的过程。AI推理的性能和效率对于实时应用至关重要,例如自动驾驶汽车、实时翻译或在线客服聊天机器人等。Cerebras Inference(以下称作“Cerebras推理服务”)便是一个专注于AI推理的服务,以支持这些对实时性要求极高的应用场景。

Cerebras推理服务由Cerebras CS-3系统及其第三代晶圆级芯片(WSE-3)提供支持。WSE-3于3月发布,基于2021年推出的WSE-2芯片进行了改进。WSE-3内存带宽高达21PB/s,是英伟达H100 GPU的7000倍。这种超高的内存带宽可以大幅减少数据传输时间,提高模型推理的速度和效率。

据官网介绍,Cerebras推理服务针对Llama 3.1 8B模型每秒提供1800个tokens,每百万tokens的价格为10美分;针对Llama 3.1 70B模型每秒提供450个tokens,每百万tokens的价格为60美分。速度比基于英伟达GPU的超大规模云解决方案快20倍。

▲Cerebras推理服务与其他服务在Llama 3.1 8B上的速度比较。单位:tokens/秒/用户。(图源:Cerebras官网)

▲Cerebras推理服务与其他服务在Llama 3.1 70B上的速度比较。单位:tokens/秒/用户。(图源:Cerebras官网)

此外,Cerebras推理服务在整个推理过程中始终保持在16位精度域内,确保在提升速度的同时不会牺牲模型的精度。大语言模型质量评估公司Artificial Analysis的联合创始人兼CEO Micah Hill-Smith谈道,他的团队已经验证了Llama 3.1 8B和Llama 3.1 70B模型在Cerebras推理服务上运行的质量评估结果:与Meta官方版本的原生16位精度一致。

跟据官网,该服务运行Llama3.1的速度比基于英伟达GPU的解决方案快20倍,而提供服务的芯片WSE-3价格仅为GPU的1/5,相当于AI推理工作负载的性价比提高了100倍。

“在Artificial Analysis的AI推理基准测试中,Cerebras推理服务已经领先。Cerebras推理服务的速度比基于GPU的解决方案快一个数量级,打破了测试的纪录。”Micah Hill-Smith说,“凭借推动超高的性能速度和具有竞争力的定价,Cerebras推理服务对具有实时或高容量需求的AI应用开发者特别具有吸引力。”

二、清晰的分级访问制度,用户可免费体验

Cerebras推理服务根据用户需求和使用情况,提供了分级制度,分为三个层级:

1、免费层级:这一层级为所有登录用户提供免费的API访问权限以及相对宽松的使用限制。用户可以在这个层级中体验,无需支付费用。

2、开发者层级:这一层级专为灵活的无服务器部署设计,为用户提供一个API端点。相比于市场上的大多数方案,其成本要低得多。对于Llama 3.1 8B和Llama 3.1 70B模型,每百万tokens的价格分别是10美分和60美分。未来,Cerebras计划持续推出对更多模型的支持。

3、企业层级:这一层级提供经过微调的模型、定制的服务级别协议和专门的支持。它适合需要持续的工作负载。企业可以通过Cerebras管理的私有云或在企业的本地部署访问Cerebras推理服务。可按需求定价。

Cerebras推理服务的这种分级制度旨在满足从小规模开发到大规模企业部署的不同需求。

三、推动多方战略合作,构建AI开发一条龙服务

在推动AI开发的战略合作伙伴关系中,Cerebras Systems正与一系列行业领导者合作,共同构建AI应用的未来生态。这些公司在各自的领域内提供关键技术和服务,比如,Docker旨在利用容器化技术使AI应用部署更加便捷和一致,LangChain为语言模型应用提供快速开发框架,Weights&Biases打造了供AI开发者训练和微调模型的MLOps平台……

“LiveKit很高兴能与Cerebras合作,帮助开发者构建下一代多模态AI应用。结合Cerebras的计算能力和模型以及LiveKit的全球边缘网络,所开发的语音和视频AI应用将实现超低延迟并更接近人类特征。”LiveKit公司的CEO兼联合创始人Russell D’sa说道,该公司专注于构建和扩展语音和视频应用程序。

AI搜索引擎创企Perplexity的CTO兼联合创始人Denis Yarats认为,Cerebras推理服务可以帮助AI搜索引擎在用户交互方面实现突破,从而提高用户参与度。

结语:AI计算战事升温,高效推理成焦点

根据国际数据公司(IDC)的研究,AI推理芯片在2020年已经占据了中国数据中心市场的50%以上份额,并预计到2025年,这一比例将增长至60.8%。据英伟达2024财年数据中心的业绩会纪要,其公司该年度有超过40%的收入来自AI推理业务。可见,AI推理不仅在当前市场中占有相当比例,而且预计在未来几年将继续保持增长势头。

Cerebras凭借其超快的推理速度、优异的性价比和独特的硬件设计,将赋予开发者构建下一代AI应用的能力,这些应用将涉及复杂、多步骤的实时处理任务。

然而,在生态系统的成熟度、模型支持的广泛性以及市场认知度方面,英伟达仍然占据优势。相比于Cerebra,英伟达拥有更大的用户群体和更丰富的开发者工具和支持。此外,虽然Cerebras支持主流模型(如Llama 3.1),但英伟达的GPU支持的深度学习框架和模型范围更广。对于已经深度集成在英伟达生态系统中的用户,Cerebras可能在模型支持的广度和灵活性方面略显不足。

展开全文

大家都在看

  • 我国发布全球最快存储器,每秒可存25亿次!比传统闪存快一百万倍

    我国发布全球最快存储器,每秒可存25亿次!比传统闪存快一百万倍 我国在数据存储技术上取得重大突破,复旦大学科研团队开发出的半导体电荷传输技术比传统闪存技术快百万倍。据央视新闻4月19日报道,我国科研领域传来振奋人心的消息,复旦大学集成芯片与系统全国重点实验室、芯片与 ... 世界最快04-25

  • 世界最快闪存在中国“破晓”

    世界最快闪存在中国“破晓” ■中国科学报见习记者 江庆龄你是否遇到过这样的时刻——刚写了一半的文章,还没来得及保存,电脑突然自动关机。等重新启动时,只能对着空白文档懊恼地叹气,提醒自己下次及时保存。要是关机时能够自动保存就好了! ... 世界最快04-19

  • 超1亿亩!全球最快、最多!

    超1亿亩!全球最快、最多! 今天(3月12日)是植树节,据国家林草局消息,2024年,我国完成国土绿化任务超1亿亩。 2024年完成1亿多亩国土绿化任务,包括造林6669万亩、种草改良4836万亩。 森林可持续经营实施面积扩大到1000万亩以上,森林质量 ... 世界最快03-13

  • 318公里/小时,世界最快自动驾驶汽车诞生

    318公里/小时,世界最快自动驾驶汽车诞生 IT之家 3 月 3 日消息,在肯尼迪航天中心举办的一场汽车活动中,一辆无人驾驶的玛莎拉蒂 MC20 Coupe 以 197.7 英里 / 小时(约合 318 公里 / 小时)的速度,创下了自动驾驶汽车新的陆地速度纪录。此前,这一纪录由印 ... 世界最快03-06

  • 时速400公里!全球最快高铁,有新消息

    时速400公里!全球最快高铁,有新消息 科技日报记者 薛岩5日,全国人大代表、中国中车股份有限公司副总裁王锋向科技日报记者表示,我国最新研制的CR450动车组已经完成样车设计并成功下线,目前正在北京环线铁道进行型式试验。王锋介绍,CR450动车组技术实 ... 世界最快03-06

  • 全球最快!1小时直达武汉!

    全球最快!1小时直达武汉! 时速400公里!全球最快高铁列车CR450今年要来湖北了全球最快高铁将上线沪渝蓉高铁武宜段试验作为国家“十四五”规划重点工程CR450以运营时速400公里刷新全球高铁速度纪录CR450动车组自2024年12月样车下线后,研发团 ... 世界最快02-27

  • 全球最快高铁,有新消息!

    全球最快高铁,有新消息! 不久前,全球最快的高铁列车CR450动车组完成了样车设计并成功下线。眼下,研发团队正在展开一系列科学试验和性能验证,为动车组早日投入商业运营创造条件。科技日报记者 洪星 摄在国家铁道试验中心,工程师们在为CR4 ... 世界最快02-23

  • 全球十大最快飞机排名,最快的环绕地球一圈仅需3个多小时。

    全球十大最快飞机排名,最快的环绕地球一圈仅需3个多小时。 国之利刃:全球十大最快飞机。这是全球最快的十大飞机,速度快到你怀疑人生。排名第一的飞机只需7分钟就能从上海飞到北京,完全超乎想象。·排名第十位的是美国的F-111战斗轰炸机。F-111战斗轰炸机是美国通用动力公 ... 世界最快01-31

  • 世界上速度最快的超级计算机"El Capitan"上线 为美国核储备提供支持

    世界上速度最快的超级计算机"El Capitan"上线 为美国核储备提供支持 全球最快的超级计算机已在加利福尼亚州劳伦斯利弗莫尔国家实验室 (LLNL) 上线。这台机器名为“El Capitan”经过大约八年的研发,于本月初亮相。它将用于保护美国核储备和机密研究。El Capitan 的峰值性能可达 2.746 ... 世界最快01-29

  • 10米/秒!全球跑得最快的“机器猛兽”诞生

    10米/秒!全球跑得最快的“机器猛兽”诞生 央视网消息1月13日,由浙江大学杭州国际科创中心人形机器人创新研究院等单位联合研发的四足机器人“黑豹2.0”正式在杭州发布。“黑豹2.0“整体重量为38kg、站立高度0.63m,身披科技感十足的“战甲”,最快奔跑速度可 ... 世界最快01-15