GPT-4混合大模型?研究证明MoE+指令调优确实让大模型性能超群
机器之心报道
编辑:小舟、陈萍
谷歌、UC 伯克利等证明 MoE + 指令调优起到了 1 + 1 > 2 的效果。
自 GPT-4 问世以来,人们一直惊艳于它强大的涌现能力,包括出色的语言理解能力、生成能力、逻辑推理能力等等。这些能力让 GPT-4 成为机器学习领域最前沿的模型之一。然而,OpenAI 至今未公开 GPT-4 的任何技术细节。
上个月,「天才黑客」乔治・霍兹(George Hotz)在接受一家名为 Latent Space 的 AI 技术播客的采访时提到了 GPT-4,并称 GPT-4 其实是一个混合模型。具体来说,乔治・霍兹称 GPT-4 采用由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。
Latent Space 的采访内容。
这或许只是乔治・霍兹的一种推测,但这种模式确实有一定的合理性。最近,由来自谷歌、UC 伯克利、MIT 等机构的研究者联合发表的一篇论文证实:混合专家模型(MoE)与指令调优的结合能够让大型语言模型(LLM)的性能大幅提升。
论文地址:https://arxiv.org/pdf/2305.14705.pdf
稀疏混合专家模型是一种特殊的神经网络架构,可以在不增加推理成本的情况下,为大型语言模型(LLM)增加可学习的参数。指令调优(instruction tuning)是一种训练 LLM 遵循指令的技术。该研究发现 MoE 模型比密集模型更能从指令调优中获益,因此提出将 MoE 和指令调优结合起来。
该研究在三种实验设置下进行了实证研究,包括
在没有指令调优的情况下在单个下游任务进行直接微调;指令调优后对下游任务进行 in-context 少样本或零样本泛化;指令调优后对单个下游任务进行进一步微调。在第一种情况下,MoE 模型总体上不如具有相同计算能力的密集模型。然而,随着指令调优的引入(第二和第三种情况),FLAN-MoE_32B(Fine-tuned LAnguage Net,简写为 Flan,是一种经过指令调优的模型,Flan-MoE 即为指令调优 MoE)在四个基准任务上性能超过了 FLAN-PALM_62B,却只用了三分之一的 FLOPs。
如下图所示,在使用指令调优前,MoE→FT 不如 T5→FT。指令调优后,Flan-MoE→FT 优于 Flan-T5→FT。MoE 从指令调优中获得的收益 (+15.6) 大于密集模型 (+10.2):
看来 GPT-4 采用混合模型还是有点根据的,MoE 确实能够从指令调优中获得更大的收益:
方法概述
研究者在 FLAN-MOE (是一组经过指令微调的稀疏混合专家模型)模型中使用了稀疏激活 MoE(Mixture-of-Experts)。此外,他们还用 MoE 层替换了其他 Transformer 层的前馈组件。
每个 MoE 层可理解为一个「专家」,然后,使用 softmax 激活函数对这些专家进行建模,得到一个概率分布。
尽管每个 MoE 层有很多参数,但专家是稀疏激活的。这意味着对于给定的输入 token,只使用有限的专家子集就能完成任务,从而为模型提供了更大的容量。
对于具有 E 个专家的 MoE 层,这实际上提供了 O (E^2) 种不同的前馈网络组合,从而实现了更大的计算灵活性。
由于 FLAN-MoE 是经过指令调优的模型,因而指令调优非常重要,该研究在 FLAN 集合数据集的基础上对 FLAN-MOE 进行微调。此外,该研究将每个 FLAN-MOE 的输入序列长度调整为 2048,输出长度调整为 512。
实验与分析
平均而言,在不增加任何额外计算的情况下,Flan-MoE 在所有模型尺度上都优于密集的同类产品 (Flan-T5)。
专家数量。图 4 显示,随着专家数量的增加,初始时,模型受益于更丰富的专门子网络,每个子网络能够处理问题空间中的不同任务或方面。这种方式使得 MoE 在处理复杂任务时具有很强的适应性和效率,从而整体上改善性能。然而,随着专家数量的不断增加,模型性能增益开始减少,最终达到饱和点。
图 3 和表 1 详细研究了不同的路由决策如何影响指令调优性能:通过 FLAN-Switch 和 FLAN-GS 策略之间的比较可以得出,激活更多的专家会在四个基准测试中提高性能。在这些基准测试中,MMLU-Direct 模型显示出最显著的改进,对于 BASE/LARGE 尺寸的模型,从 38.0% 增加到 39.9%。
值得注意的是,与等效容量的密集模型相比,指令调优显著放大了 MoE 模型在保留 MMLU、BBH 和内部 QA 和推理基准测试方面的性能。对于较大的 MoE 模型,这些优势进一步放大。例如,指令调优使 ST_32B 的性能提升了 45.2%,而对于 FLAN-PALM_62B,这种改进相对较小,约为 6.6%。
当进行模型扩展时,Flan-MoE (Flan-ST-32B) 优于 Flan-PaLM-62B 。
此外,该研究通过 freeze 给定模型的门控函数(gating function)、专家模块和 MoE 参数进行了一些分析实验。如下表 2 所示,实验结果表明,freeze 专家模块或 MoE 组件对模型性能有负面影响。
相反,freeze 门控函数会使模型性能略有改善,尽管并不明显。研究者推测这一观察结果与 FLAN-MOE 的欠拟合有关。该研究还进行了消融实验来探究下图 5 描述了微调数据效率消融研究。
最后,为了比较直接对 MoE 进行微调和 FLAN-MOE 之间的差距,该研究对单任务微调的 MoE、单任务微调的 FLAN-MoE 和密集模型进行了实验,结果如下图 6 所示:
感兴趣的读者可以阅读论文原文,了解更多研究内容。
大家都在看
-
机器狼:巷战利器背后的科技突破与未来畅想】 前两天 【机器狼:巷战利器背后的科技突破与未来畅想】前两天,我在珠海航展现场,人群中偶遇一位老工程师。聊天间得知他已在国防工业战线摸爬滚打三十余载。说起这次展会上的”明星”机器狼,老工程师的眼里闪着光:”的无 ... 机械之最11-21
-
什么最可怕,未来战场机器狼群最可怕!#军事科技 什么最可怕?狼群最可怕。我国自主研究的机器狼来了,直接亮相珠海航展,还是群狼作战。很多人会问未来战争是什么样的?现在可以告诉你是无人装备。我国自主研究的机器狼作战小队现在有 4 个作战平台,它们之间可是 ... 机械之最11-17
-
碾压美军!中国机器狼群亮相珠海航展,武德充沛太残暴! 真的太酷啦!机器狗已经out了,解放军已经用上了“机器狼”,这把直接开启未来无人战争高端局。由中国兵器装备集团研发的机器狼群无人作战系统,首度在珠海航展动态展示,并迅速成为现场的焦点。岛内专家见到后直接 ... 机械之最11-16
-
2000年前人类的第一台计算机:安提基特拉机械之谜 全全探索局。说说历史上最大的谜团——人类发现了本不应该存在的古老计算机!1. 1900 年海绵潜水员在希腊小岛安提凯西拉附近发现了一艘沉船,他在海底发现了一只突出的青铜手,虽严重腐蚀但仍可辨认,他将发现报告给 ... 机械之最11-14
-
机械狼带给咱们的冲击感还没有消失呢 机械狼带给咱们的冲击感还没有消失呢,机械虎就横空出世了!这就像是在说,这台机器可不是你的玩具,它可是一个凶猛的野兽!这不禁让人联想起一些有趣的民间调侃,更让人深思这背后究竟蕴藏着怎样的军事理念?这些“ ... 机械之最11-14
-
当今最复杂的椭圆曲线找到了!29个独立有理点打破18年记录 选自quantamagazine作者:Joseph Howlett机器之心编译机器之心编辑部又是计算机帮了忙。对现代密码学稍有了解的人都必定听过椭圆曲线的赫赫威名,但椭圆曲线本身依然还存在很多悬而未决的问题。今天,量子杂志作者 J ... 机械之最11-12
-
实战版“汪汪队”来了 机器狗将首次亮相中国航展! 总台中国之声记者从兵器工业集团了解到,四条机器狗分队将参加地面装备动态演示环节,四足机器人具备综合打击、侦察探测、运输包装、操作处置等功能,将展示城市作战机动能力。启动、行走、爬坡、下楼……昨天在珠海 ... 机械之最11-09
-
机械硬盘这种“老古董”,怎么在大模型时代还供不应求了? 大家是不是觉得,搞人工智能就得买显卡、买网卡?其实啊,还有个被大家忽略的"主角"——存储设备,特别是咱们常说的硬盘。这不,最近硬盘价格蹭蹭往上涨,搞得大家直呼吃不消。你说硬盘这玩意儿,都快70岁"高龄" ... 机械之最11-08
-
每日数码科普之六十四:键盘什么轴好用?机械键盘轴体选择指南 机械键盘因其独特的手感、耐用性和可定制性,近年来越来越受欢迎。而机械键盘的核心在于“轴体”,它决定了键盘的手感、声音以及使用体验。不同的轴体适合不同的使用场景,因此选择一个适合自己的键盘轴体尤为重要。 ... 机械之最11-07
-
为神舟飞船造一顶“大伞”——走进中国航天科技集团五院508所航天器回收着陆团队 图①:11月4日,神舟十八号载人飞船返回舱在东风着陆场着陆。新华社记者 李志鹏摄图②:神舟飞船回收着陆分系统1200平方米主伞。图③:工作人员为神舟飞船包伞。(除署名外,照片由采访对象提供)11月4日凌晨1时24分 ... 机械之最11-07
相关文章
- 当今最复杂的椭圆曲线找到了!29个独立有理点打破18年记录
- 大国重器背后的“90后” 汪泽:精密机械的操控者 于毫厘之间细雕琢
- 合作共赢创未来——写在第七届中国国际进口博览会开幕之际
- 闫妮机械姬:科技与魅力交织的科幻新象
- 倒背191步枪,解放军公布一窝6只“机器狼”,战斗力到底有多强?
- 实战版“汪汪队”来了 机器狗将首次亮相中国航展!
- 机械行业的发展现状与未来趋势分析
- 机械硬盘这种“老古董”,怎么在大模型时代还供不应求了?
- 每日数码科普之六十四:键盘什么轴好用?机械键盘轴体选择指南
- 娜然仿生机械姬
- 为神舟飞船造一顶“大伞”——走进中国航天科技集团五院508所航天器回收着陆团队
- 机械行业发展前景如何?全面解析与展望
- 机械哪个方向好?
- 我国古代的计时仪之最
- 新车停在机械车位,最担心的事情发生了……
- 给敌人递刀子?中企帮印度建最大最强炼铁高炉,将损害长远利益?
- 美国对中国大学机械工程排名!网友:如梦如幻
- 每日数码科普之五十一:键盘的进化与现代趋势
- 2024年双十一机械键盘入门及选购推荐(含无线键盘、游戏键盘)
- 山东一只“机器狗”火遍全网!确实厉害→
热门阅读
-
天下第一暗器暴雨梨花针,传说中的唐门暗器做出来了 07-13
-
世界十大大型船舶排名,第一能承重六十万吨! 07-13