GPT-4混合大模型?研究证明MoE+指令调优确实让大模型性能超群
机器之心报道
编辑:小舟、陈萍
谷歌、UC 伯克利等证明 MoE + 指令调优起到了 1 + 1 > 2 的效果。
自 GPT-4 问世以来,人们一直惊艳于它强大的涌现能力,包括出色的语言理解能力、生成能力、逻辑推理能力等等。这些能力让 GPT-4 成为机器学习领域最前沿的模型之一。然而,OpenAI 至今未公开 GPT-4 的任何技术细节。
上个月,「天才黑客」乔治・霍兹(George Hotz)在接受一家名为 Latent Space 的 AI 技术播客的采访时提到了 GPT-4,并称 GPT-4 其实是一个混合模型。具体来说,乔治・霍兹称 GPT-4 采用由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。

Latent Space 的采访内容。
这或许只是乔治・霍兹的一种推测,但这种模式确实有一定的合理性。最近,由来自谷歌、UC 伯克利、MIT 等机构的研究者联合发表的一篇论文证实:混合专家模型(MoE)与指令调优的结合能够让大型语言模型(LLM)的性能大幅提升。

论文地址:https://arxiv.org/pdf/2305.14705.pdf
稀疏混合专家模型是一种特殊的神经网络架构,可以在不增加推理成本的情况下,为大型语言模型(LLM)增加可学习的参数。指令调优(instruction tuning)是一种训练 LLM 遵循指令的技术。该研究发现 MoE 模型比密集模型更能从指令调优中获益,因此提出将 MoE 和指令调优结合起来。
该研究在三种实验设置下进行了实证研究,包括
在没有指令调优的情况下在单个下游任务进行直接微调;指令调优后对下游任务进行 in-context 少样本或零样本泛化;指令调优后对单个下游任务进行进一步微调。在第一种情况下,MoE 模型总体上不如具有相同计算能力的密集模型。然而,随着指令调优的引入(第二和第三种情况),FLAN-MoE_32B(Fine-tuned LAnguage Net,简写为 Flan,是一种经过指令调优的模型,Flan-MoE 即为指令调优 MoE)在四个基准任务上性能超过了 FLAN-PALM_62B,却只用了三分之一的 FLOPs。
如下图所示,在使用指令调优前,MoE→FT 不如 T5→FT。指令调优后,Flan-MoE→FT 优于 Flan-T5→FT。MoE 从指令调优中获得的收益 (+15.6) 大于密集模型 (+10.2):

看来 GPT-4 采用混合模型还是有点根据的,MoE 确实能够从指令调优中获得更大的收益:

方法概述
研究者在 FLAN-MOE (是一组经过指令微调的稀疏混合专家模型)模型中使用了稀疏激活 MoE(Mixture-of-Experts)。此外,他们还用 MoE 层替换了其他 Transformer 层的前馈组件。
每个 MoE 层可理解为一个「专家」,然后,使用 softmax 激活函数对这些专家进行建模,得到一个概率分布。
尽管每个 MoE 层有很多参数,但专家是稀疏激活的。这意味着对于给定的输入 token,只使用有限的专家子集就能完成任务,从而为模型提供了更大的容量。
对于具有 E 个专家的 MoE 层,这实际上提供了 O (E^2) 种不同的前馈网络组合,从而实现了更大的计算灵活性。
由于 FLAN-MoE 是经过指令调优的模型,因而指令调优非常重要,该研究在 FLAN 集合数据集的基础上对 FLAN-MOE 进行微调。此外,该研究将每个 FLAN-MOE 的输入序列长度调整为 2048,输出长度调整为 512。
实验与分析
平均而言,在不增加任何额外计算的情况下,Flan-MoE 在所有模型尺度上都优于密集的同类产品 (Flan-T5)。

专家数量。图 4 显示,随着专家数量的增加,初始时,模型受益于更丰富的专门子网络,每个子网络能够处理问题空间中的不同任务或方面。这种方式使得 MoE 在处理复杂任务时具有很强的适应性和效率,从而整体上改善性能。然而,随着专家数量的不断增加,模型性能增益开始减少,最终达到饱和点。

图 3 和表 1 详细研究了不同的路由决策如何影响指令调优性能:通过 FLAN-Switch 和 FLAN-GS 策略之间的比较可以得出,激活更多的专家会在四个基准测试中提高性能。在这些基准测试中,MMLU-Direct 模型显示出最显著的改进,对于 BASE/LARGE 尺寸的模型,从 38.0% 增加到 39.9%。
值得注意的是,与等效容量的密集模型相比,指令调优显著放大了 MoE 模型在保留 MMLU、BBH 和内部 QA 和推理基准测试方面的性能。对于较大的 MoE 模型,这些优势进一步放大。例如,指令调优使 ST_32B 的性能提升了 45.2%,而对于 FLAN-PALM_62B,这种改进相对较小,约为 6.6%。

当进行模型扩展时,Flan-MoE (Flan-ST-32B) 优于 Flan-PaLM-62B 。

此外,该研究通过 freeze 给定模型的门控函数(gating function)、专家模块和 MoE 参数进行了一些分析实验。如下表 2 所示,实验结果表明,freeze 专家模块或 MoE 组件对模型性能有负面影响。

相反,freeze 门控函数会使模型性能略有改善,尽管并不明显。研究者推测这一观察结果与 FLAN-MOE 的欠拟合有关。该研究还进行了消融实验来探究下图 5 描述了微调数据效率消融研究。

最后,为了比较直接对 MoE 进行微调和 FLAN-MOE 之间的差距,该研究对单任务微调的 MoE、单任务微调的 FLAN-MoE 和密集模型进行了实验,结果如下图 6 所示:

感兴趣的读者可以阅读论文原文,了解更多研究内容。
大家都在看
-
三件小事最耗气血,别再做了! 《黄帝内经》中说:“人之所有者,血与气耳。”意思是说,气血是生命的根本,如果把人体比作一台运转的机器,气血就是最根本的动力。日常生活中,哪些事情最耗气血,调补气血有哪些好方法?一起来看!(转自:首都中 ... 机械之最04-09
-
古董钟表里的机械之美,时光流转中的经典工艺。 小夜莺发现森林的钟表集体变慢,月亮像打瞌睡的老人迟迟不下班。树洞深处时间蜜蜂正用破损的蜂巢修补时针,每滴花蜜能凝固三分钟。夜莺衔来沾露的玫瑰,啄木鸟敲打水晶树校准节奏。当最后一道裂缝被晨光填平,迟到的 ... 机械之最04-09
-
"立木为信"的商鞅,为何成了帝国最锋利的刀? 公元前359年的咸阳南门,一根三丈高的木杆旁围满了看热闹的百姓。卫国人商鞅当众宣布:"谁能把这根木头搬到北门,赏十金。"人群窃窃私语却无人上前,直到赏金涨到五十金,终于有个壮汉抱着试试看的心态扛走 ... 机械之最04-09
-
机械革命最划算游戏本来了?配置低但价格给力,国补后3999元 如果说国补之后哪款笔记本能让很多人兴奋的话,机械革命极光X绝对是其中一个。如果再细分到游戏本这块,那就几乎只有这个。过气但是强大的CPU,加上主流的RTX4060或者RTX4070独显,配上合适的价格,说一机难求也不过 ... 机械之最04-09
-
宇树机器狗最具有成长潜力的10家企业!一、长盛轴承二、绿的谐波 在这个科技日新月异的时代,机器人早已不再是科幻电影中的专属。尤其是机器狗的出现,更是让人们对未来充满了无限遐想。而在这股浪潮中,宇树科技凭借其卓越的产品,迅速崭露头角。但你可知道,在这只机器狗的背后, ... 机械之最04-07
-
机械之舞:当国产机器人跳出《功夫》的江湖气韵 在科技与文化的交汇处,一场别开生面的表演正在上演:国产机器人整齐划一地跳起《功夫》中的经典斧头舞,金属关节精准复刻每一个武打动作,电子眼中仿佛闪烁着周星驰电影特有的戏谑光芒。这一幕既荒诞又和谐,既未来 ... 机械之最04-06
-
至今无法被超越的经典运输机安225,机械之美超级运输机! 在人类航空的浩瀚星空中,安-225“梦幻”运输机犹如一颗耀眼的星辰,散发着令人无法抗拒的机械魅力。每当提及它,我的内心总会涌现出无尽的感慨。今日,我将这份倾慕与思考记录在此日记之中。初次听闻安-225的名声, ... 机械之最04-06
-
一文图解 72 个机器学习基础知识点 作者王路情,澳门科技大学博士, 提供软件开发、数据分析和智能应用服务。微信:shushengya360,1. 机器学习概述1)什么是机器学习人工智能(Artificial intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理 ... 机械之最04-05
-
在皇帝之最中,乾隆独揽了哪三项? 在中国历史的璀璨星空中,乾隆皇帝犹如一颗耀眼的明星,独占鳌头。他不仅是长寿的象征,更是执政时间的冠军,还是诗词创作的“诗歌机器”。想知道这位皇帝是如何在这三项“皇帝之最”中脱颖而出的吗?让我们一起揭开 ... 机械之最04-04
-
机械工程世界一流学科排名:16所进全球前30,上大北理南航闪耀! 机械被誉为工业之母,研究和解决机械设计、制造、机电工程以及自动化的各种理论和实际问题的应用科学。没有机械,工业发展就是空话,是一个国家综合实力的最强大保证。来源于软科官方网站软科排行榜发布了最新世界一 ... 机械之最04-04
相关文章
- 大罗谈生涯最凶残被铲:对方鞋钉长到像穿高跟鞋,走路像机械战警
- 燕山大学的王牌专业——机械工程,中等生的不二之选
- 尼康相机创造过哪些“世界之最”?——众通社影像
- 各类轴体,75~98键,哪种机械键盘更适合你?自用百元键盘推荐
- 哪个品牌机械手表最耐用
- 机械之美,齿轮运转,动力无限!
- 标题:《探秘世界“巨无霸机械”:工业奇迹的力量与震撼》
- 学机械,这9所大学重点考虑!
- 机械仪表最好看
- 机械魅力:解锁机械结构设计的艺术之美✨
- 钢铁丛林中的机械美学狂想曲
- 机械专业最具潜力的六个岗位,前景好,薪资高
- 为啥好多网友说乾隆就是一台冰冷的政治机器?网友回答道出真相
- 祖冲之:古代中国的数学巨匠与科学先驱
- “机械,最好找工作的专业之一”,山东二本,4个机械男,毕业8年
- 太重1300吨桥式起重机荣获2024年重型机械世界之最科技成果
- 又一项世界之最→太重集团1300t桥式起重机
- 又一殊荣 太重1300t桥式起重机荣获2024年重型机械世界之最科技成果
- 全省唯一!“洛阳制造”再添世界之最
- 经开快讯丨中国重型院项目荣获2024年重型机械世界之最科技成果