GPT-4混合大模型?研究证明MoE+指令调优确实让大模型性能超群
机器之心报道
编辑:小舟、陈萍
谷歌、UC 伯克利等证明 MoE + 指令调优起到了 1 + 1 > 2 的效果。
自 GPT-4 问世以来,人们一直惊艳于它强大的涌现能力,包括出色的语言理解能力、生成能力、逻辑推理能力等等。这些能力让 GPT-4 成为机器学习领域最前沿的模型之一。然而,OpenAI 至今未公开 GPT-4 的任何技术细节。
上个月,「天才黑客」乔治・霍兹(George Hotz)在接受一家名为 Latent Space 的 AI 技术播客的采访时提到了 GPT-4,并称 GPT-4 其实是一个混合模型。具体来说,乔治・霍兹称 GPT-4 采用由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。
Latent Space 的采访内容。
这或许只是乔治・霍兹的一种推测,但这种模式确实有一定的合理性。最近,由来自谷歌、UC 伯克利、MIT 等机构的研究者联合发表的一篇论文证实:混合专家模型(MoE)与指令调优的结合能够让大型语言模型(LLM)的性能大幅提升。
论文地址:https://arxiv.org/pdf/2305.14705.pdf
稀疏混合专家模型是一种特殊的神经网络架构,可以在不增加推理成本的情况下,为大型语言模型(LLM)增加可学习的参数。指令调优(instruction tuning)是一种训练 LLM 遵循指令的技术。该研究发现 MoE 模型比密集模型更能从指令调优中获益,因此提出将 MoE 和指令调优结合起来。
该研究在三种实验设置下进行了实证研究,包括
在没有指令调优的情况下在单个下游任务进行直接微调;指令调优后对下游任务进行 in-context 少样本或零样本泛化;指令调优后对单个下游任务进行进一步微调。在第一种情况下,MoE 模型总体上不如具有相同计算能力的密集模型。然而,随着指令调优的引入(第二和第三种情况),FLAN-MoE_32B(Fine-tuned LAnguage Net,简写为 Flan,是一种经过指令调优的模型,Flan-MoE 即为指令调优 MoE)在四个基准任务上性能超过了 FLAN-PALM_62B,却只用了三分之一的 FLOPs。
如下图所示,在使用指令调优前,MoE→FT 不如 T5→FT。指令调优后,Flan-MoE→FT 优于 Flan-T5→FT。MoE 从指令调优中获得的收益 (+15.6) 大于密集模型 (+10.2):
看来 GPT-4 采用混合模型还是有点根据的,MoE 确实能够从指令调优中获得更大的收益:
方法概述
研究者在 FLAN-MOE (是一组经过指令微调的稀疏混合专家模型)模型中使用了稀疏激活 MoE(Mixture-of-Experts)。此外,他们还用 MoE 层替换了其他 Transformer 层的前馈组件。
每个 MoE 层可理解为一个「专家」,然后,使用 softmax 激活函数对这些专家进行建模,得到一个概率分布。
尽管每个 MoE 层有很多参数,但专家是稀疏激活的。这意味着对于给定的输入 token,只使用有限的专家子集就能完成任务,从而为模型提供了更大的容量。
对于具有 E 个专家的 MoE 层,这实际上提供了 O (E^2) 种不同的前馈网络组合,从而实现了更大的计算灵活性。
由于 FLAN-MoE 是经过指令调优的模型,因而指令调优非常重要,该研究在 FLAN 集合数据集的基础上对 FLAN-MOE 进行微调。此外,该研究将每个 FLAN-MOE 的输入序列长度调整为 2048,输出长度调整为 512。
实验与分析
平均而言,在不增加任何额外计算的情况下,Flan-MoE 在所有模型尺度上都优于密集的同类产品 (Flan-T5)。
专家数量。图 4 显示,随着专家数量的增加,初始时,模型受益于更丰富的专门子网络,每个子网络能够处理问题空间中的不同任务或方面。这种方式使得 MoE 在处理复杂任务时具有很强的适应性和效率,从而整体上改善性能。然而,随着专家数量的不断增加,模型性能增益开始减少,最终达到饱和点。
图 3 和表 1 详细研究了不同的路由决策如何影响指令调优性能:通过 FLAN-Switch 和 FLAN-GS 策略之间的比较可以得出,激活更多的专家会在四个基准测试中提高性能。在这些基准测试中,MMLU-Direct 模型显示出最显著的改进,对于 BASE/LARGE 尺寸的模型,从 38.0% 增加到 39.9%。
值得注意的是,与等效容量的密集模型相比,指令调优显著放大了 MoE 模型在保留 MMLU、BBH 和内部 QA 和推理基准测试方面的性能。对于较大的 MoE 模型,这些优势进一步放大。例如,指令调优使 ST_32B 的性能提升了 45.2%,而对于 FLAN-PALM_62B,这种改进相对较小,约为 6.6%。
当进行模型扩展时,Flan-MoE (Flan-ST-32B) 优于 Flan-PaLM-62B 。
此外,该研究通过 freeze 给定模型的门控函数(gating function)、专家模块和 MoE 参数进行了一些分析实验。如下表 2 所示,实验结果表明,freeze 专家模块或 MoE 组件对模型性能有负面影响。
相反,freeze 门控函数会使模型性能略有改善,尽管并不明显。研究者推测这一观察结果与 FLAN-MOE 的欠拟合有关。该研究还进行了消融实验来探究下图 5 描述了微调数据效率消融研究。
最后,为了比较直接对 MoE 进行微调和 FLAN-MOE 之间的差距,该研究对单任务微调的 MoE、单任务微调的 FLAN-MoE 和密集模型进行了实验,结果如下图 6 所示:
感兴趣的读者可以阅读论文原文,了解更多研究内容。
大家都在看
-
每日数码科普之六十四:键盘什么轴好用?机械键盘轴体选择指南 机械键盘因其独特的手感、耐用性和可定制性,近年来越来越受欢迎。而机械键盘的核心在于“轴体”,它决定了键盘的手感、声音以及使用体验。不同的轴体适合不同的使用场景,因此选择一个适合自己的键盘轴体尤为重要。 ... 机械之最11-07
-
为神舟飞船造一顶“大伞”——走进中国航天科技集团五院508所航天器回收着陆团队 图①:11月4日,神舟十八号载人飞船返回舱在东风着陆场着陆。新华社记者 李志鹏摄图②:神舟飞船回收着陆分系统1200平方米主伞。图③:工作人员为神舟飞船包伞。(除署名外,照片由采访对象提供)11月4日凌晨1时24分 ... 机械之最11-07
-
我国古代的计时仪之最 时间是人类创造出来的一个概念。可能与光有关,也可能与生长有关,还可能与外星人有关……光影(图片来自网络,下同)很早,人类就发明了用来计量时间的设备。从粗糙到精致,从大概到精准。从时间计量仪器的演变就可 ... 机械之最11-07
-
新车停在机械车位,最担心的事情发生了…… 1刚买的“吉利银河” 被机械车位压坏杭州拱墅区有个富越香郡盈座何女士在这里租了一套公寓还租了一个机械车位说是取车时刚买来一个多月的新车被压坏了该怎么修怎么赔几方无法达成一致何女士:10月19号下午3点多我去 ... 机械之最11-06
-
给敌人递刀子?中企帮印度建最大最强炼铁高炉,将损害长远利益? 今年9月,在印度发生了一件大事,我国给印度修建的最高规格的钢铁高炉在印度塔塔钢厂2号高炉点火投产。为什么说这对于印度来说是一件大事呢?因为此次中国五矿集团旗下公司所研发的这款钢铁高炉非常不一般,它是世界 ... 机械之最11-06
-
每日数码科普之五十一:键盘的进化与现代趋势 在数码时代,键盘作为最基本的输入设备之一,已经从简单的文字输入工具,发展成了富有科技感和个性化体验的数码产品。从经典的机械键盘到轻薄的无线键盘,各类技术的进步为键盘带来了更好的手感、功能性和设计上的多 ... 机械之最11-05
-
2024年双十一机械键盘入门及选购推荐(含无线键盘、游戏键盘) #理想家生活#本内容来源于@什么值得买APP,观点仅代表作者本人 |作者:DMN多米诺各位好,我是多米诺。双十一到了,希望各位都能买到适合自己的键盘。长文预警,建议先赞再收藏慢慢看。需要注意,本文不含铝坨坨卷王 ... 机械之最11-04
-
山东一只“机器狗”火遍全网!确实厉害→ 这几天,泰山上一只机器狗火遍全网。它驮着重物,在陡峭山路上“健步如飞”,从泰山山脚的红门到山顶仅用了两小时,是普通人登山时间的一半,攀登泰山,轻松拿捏。据介绍,这是泰山文旅集团物业公司测 ... 机械之最11-04
-
太空“豪宅”!揭秘中国空间站的非凡性能→ 我国的空间站自2022年底完成在轨建造以来,已经成为了一座国家太空实验室,也成为中国航天史上目前规模最大、长期有人照料的空间实验平台。随着神舟十九号飞船航天员乘组进入太空,我国空间站应用与发展阶段的第四次 ... 机械之最11-04
-
机械行业最不缺的就是一线牛马!毕业生如何脱颖而出? #机械 机械行业的现状!1. 机械行业永远缺愿意干活的牛马,永远缺画图狗。本人作为一名机械工程师,在各种大厂待过很多年,从事机械设计行业已经 12 年了,月薪 32k 左右。2. 这十几年的经历整理了很多学习机械的书籍和资 ... 机械之最11-04
相关文章
- 2024年双十一机械键盘入门及选购推荐(含无线键盘、游戏键盘)
- 山东一只“机器狗”火遍全网!确实厉害→
- 太空“豪宅”!揭秘中国空间站的非凡性能→
- 机械行业最不缺的就是一线牛马!毕业生如何脱颖而出? #机械
- 长沙工程机械何以走俏非洲?
- 全球最宽轧机成功热试
- 十年磨剑破解城市地下超窄空间施工难题
- 机械设备最关心电缸什么
- 重回兵器谱排行第一名,迈凯伦F1继任者W1来了
- 用事实说话 盘点京东最热销的十大机械键盘
- 《尼尔:机械纪元》评测8.0分 顶配的屁股和低配的开放世界
- 寻访“两弹一星”亲历者丨最需要的地方
- “2024中国工程机械专业化制造商50强”发榜
- 在平凡中见证伟大!《环球时报》独家探访青藏铁路“天路卫士”
- 共享发展机遇 中捷机械工业合作潜力大
- 运动机械手表哪几个品牌最专业?
- 最低 99 元,这些机械键盘手感是真的好
- 意大利军用三蹦子—摩托古兹机械骡子”
- 机械类最吃香专业是什么?再看该专业2024年在浙江省分数线是多少
- 机械专业刚读大学最应该做的是什么 #学习计划
热门阅读
-
天下第一暗器暴雨梨花针,传说中的唐门暗器做出来了 07-13
-
世界十大大型船舶排名,第一能承重六十万吨! 07-13