Transformer彻底改变了人工智能，那什么将取代transformer？

发布者：逸飞而过 2023-9-9 21:05

文/Rob Toews

如果说现代人工智能有一份创始文件或者一篇圣典，那一定就是谷歌2017年发布的研究论文《你需要的只是Attention》（Attention Is All You Need）。

这篇论文介绍了一种被称为“transformer"的新型深度学习架构，并在过去五年里彻底改变了人工智能领域。

Transformer是当今占主导地位的人工智能架构，它与2016年科幻电影《降临》（Arrival）中的外星语言有着有趣的相似之处。图片来源：PARAMOUNT PICTURES

目前席卷全球的人工智能热潮都可以直接追溯到transformer的发明。今天出现在头条新闻中的每个主要AI模型和产品——ChatGPT、GPT-4、Midjourney、Stable Diffusion、GitHub Copilot等等——都是使用transformer构建的。

Transformer具有显著的通用性：虽然它们最初是专为语言翻译而开发的，但它们现在也在推动计算机视觉、机器人学、计算生物学等领域的技术发展。

简而言之，transformer代表了当今人工智能技术无可争议的黄金标准。

但没有一种技术能永远占据主导地位。

在transformer的影响力达到顶峰之际，思考接下来会发生什么似乎有些奇怪。但是，在瞬息万变的人工智能世界里，在未来变得显而易见之前，设法“洞察先机”并一窥究竟，既令人着迷，又大有裨益。

本着这种精神，让我们斗胆一问：

什么会取代transformer？

Transformer 101

为了探讨这个问题，我们必须首先更深入地了解transformer。

现已成为经典的那篇关于transformer论文是由八位研究人员于2017年在谷歌共同完成的：他们是艾丹·戈麦斯（Aidan Gomez）、利昂·琼斯（Llion Jones）、卢卡斯·凯泽（Lukasz Kaiser）、尼基·帕马尔（Niki Parmar）、伊利亚·波罗苏欣（Illia Polosukhin）、诺姆·沙泽尔（Noam Shazeer）、雅各布·乌斯科雷特（Jakob Uszkoreit）和阿希什·瓦斯瓦尼（Ashish Vaswani）。

关于这篇论文，一个经常被忽视的事实是，所有8位作者都被列为共同撰稿人，排名不分先后，也就是说，他们的名字出现在论文上的顺序是随机决定的，没有任何意义。话虽如此，人们普遍认为乌斯科雷特为transformer这个概念提供了最初的智力引擎，而瓦斯瓦尼和沙泽尔则是自始至终最深入参与这项工作各个方面的两位作者。

这8位作者都因为他们对这篇论文的参与而成为了人工智能领域的杰出人物。如今，他们都不在谷歌工作了，但他们后来各自或共同创办了许多当今最重要的人工智能初创公司，包括Cohere、Character.ai、Adept、Inceptive、Essential AI 和 Sakana AI。

Transformer究竟为何能带来如此巨大的突破？

在《你需要的只是Attention》这篇论文发表之前，语言人工智能领域最先进的技术是一种被称为递归神经网络（RNN）的深度学习架构。

顾名思义，RNN是按顺序处理数据的，即按照单词出现的顺序一次处理一个单词。

但重要的关系往往存在于单词之间，即使它们在一个序列中不是紧挨着出现。为了使RNN能够更好地解释词与词之间的这些远距离依赖关系，一种被称为“Attention”的机制变得流行起来。（Attention机制的发明通常被认为归功于深度学习先驱约书亚·本吉奥（Yoshua Bengio）在2014年发表的一篇论文。）

“Attention”使模型能够考虑单词之间的关系，而不管它们相距多远，并确定段落中哪些单词和短语最值得"关注"。

在transformer论文发表之前，研究人员只将Attention作为RNN架构的附加组件。谷歌团队的一大飞跃是完全摒弃了RNN，完全依靠Attention来进行语言建模，这就是那篇文章的标题为什么叫《你需要的只是Attention》。

（关于这篇论文，有一个迷人但鲜为人知的事实：据合著者利昂·琼斯说，它的标题是对披头士乐队的歌曲《你需要的只是爱》（All You Need is Love）的致敬。）

发明transformer的八位科学家。图片来源：金融时报

Attention机制使transformer的根本创新成为可能，它实现了语言处理的并行化，即同时分析特定文本中的所有单词，而不是按顺序分析。

作为一个有趣的类比，论文合著者之一伊利亚·波洛苏欣将transformer的结构与2016年科幻电影《降临》（Arrival）中虚构的外星语言进行了比较。影片中的外星人并没有像人类那样，按顺序生成一串字符来组成单词和句子，而是一次生成一个复杂的符号，所有的符号都传达了一个详细的含义，人类必须将其作为一个整体来解读。

Transformer的并行化使它们对所读和所写的文本有了更全面、更准确的理解。这也使它们与RNN相比具有更高的计算效率和可扩展性。Transformer可以在更大的数据集上进行训练，并且可以使用比以前的架构更多的参数来构建，从而使其功能更加强大，更具通用性。事实上，当今基于transformer的领先模型的一大特点就是其规模。

Transformer的并行架构与GPU硬件的兴起不谋而合，这是一种互惠互利、相互促进的历史巧合。GPU是一种计算机芯片，它本身具有大规模并行性，因此非常适合支持基于transformer的计算工作负载。（全球领先的GPU生产商英伟可能是当今人工智能热潮的最大受益者，由于市场对其芯片的需求惊人，该公司最近的市值超过了1万亿美元。）

剩下的，就像人们常说的那样，就是历史了。得益于这些巨大优势，自发明以来的六年里，transformer席卷了世界，开创了生成式人工智能的时代。

今天流行的所有“聊天机器人”——OpenAI的ChatGPT、谷歌的Bard、微软的Bing Chat、Anthropic的Claude、Inflection的Pi等等——都是基于transformer。从Midjourney到Stable Diffusion再到Runway的每一个生成图像或视频的人工智能工具也是如此。（从文本到图像和从文本到视频技的术是由扩散模型驱动的，而扩散模型又使用了transformer。）

Transformer的影响远不止文字和图片。当今最先进的机器人研究都依赖于transformer。事实上，谷歌最新的机器人研究成果被命名为RT-2，其中的“T”代表的就是“transformer”。同样，在自动驾驶汽车领域最有前途的新研究途径之一是使用视觉transformer。基于transformer的模型开启了生物学中令人惊叹的新可能性，包括设计出自然界从未出现过的定制蛋白质和核酸的能力。

Transformer的联合发明人阿希什·瓦斯瓦尼总结得很好：“transformer是一种快速捕捉任何输入内如的不同部分之间相互作用的方法。这是一种通用的方法，可以捕捉各个部分之间的相互作用，例如句子中的片段、音乐中的音符，图像中的像素、蛋白质的部分等等。它可以用于任何任务。”

天下没有不散的筵席？

然而，尽管具有令人难以置信的优势，transformer也并非没有缺点。这些缺点为可能出现的新的和改进的体系结构打开了大门。

Transformer的主要缺点是其惊人的计算成本。

任何熟悉人工智能世界的人都知道，当今人工智能模型的一个决定性特征是它们永不满足的算力需求。今天，训练一个尖端的大型语言模型需要连续几个月不停地运行数千个GPU。例如，OpenAI今年早些时候筹集了令人瞠目的100亿美元，其原因是为了支付构建先进人工智能模型所需的大量算力资源的费用。另一个例子是，成立仅18个月的初创公司Inflection最近筹集了超过10亿美元的风险投资，用于构建一个大型GPU集群来训练其语言模型。

事实上，基于transformer的模型对算力的需求如此之大，以至于当前的人工智能热潮引发了全球供应短缺，硬件制造商无法以足够快的速度生产人工智能芯片，以满足需求。

为什么transformer对算力的要求如此之高？

一个基本的答案是，transformer的强大之处同时也是它的弱点：因为它们比以前的架构更能有效地扩展，transformer使构建比以前存在的大几个数量级的模型不仅成为了可能，而且是不可避免。如此庞大的模型相应地需要庞大的计算能力。

但是transformer的算力成本有一个更具体的原因：transformer的架构与序列长度成二次方关系。简单地说，这意味着当transformer处理的序列长度（例如，段落中的单词数量或图像的大小）增加给定数量时，所需的算力就会按该数量的平方增加，从而迅速变得巨大。

这种按照平方放大的缩放是有直观原因的，也是transformer设计的固有特点。

回想一下，Attention使理解单词之间的关系成为可能，而不管它们在序列中相距多远。它是如何做到这一点的呢？通过将序列中的每个单词与该序列中的每个其他单词进行比较。这种两两比较的结果是，随着序列长度的增加，所需的计算步骤数量将呈二次方增长，而不是线性增长。举个具体的例子，将序列长度从32个词组增加一倍到64个词组，transformer的计算成本就不仅仅是增加了一倍，而是增加了四倍。

这种二次方缩放导致了一个相关的缺点：transformer很难处理很长的序列。

随着序列长度的增长，将它们送入transformer最终会变得棘手，因为内存和计算需求会以二次方的速度激增。例如，想一想整本教科书（包含数百万个词元）或整个基因组（包含数十亿个词元）的处理。

增加模型一次可以输入的最大序列长度，即所谓的模型的“上下文窗口”，是当今大型语言模型研究的一个活跃领域。GPT-4模型的上下文窗口的容量是8000个词元。几个月前，OpenAI发布了一个增强版的GPT-4，拥有可容纳32,000个词元的上下文窗口。OpenAI的竞争对手Anthropic随后加大了赌注，最近宣布推出了一个新模型，其上下文窗口可以容纳10万个词元。

毫无疑问，这场军备竞赛还将继续下去。然而，如果OpenAI、Anthropic或任何其他公司坚持使用transformer架构，那么它们制作模型上下文窗口的能力都是有限的。

人们已经做出了各种尝试，来构建transformer的改进版本，它们仍然使用Attention，但能更好地处理长序列。然而，这些被修改过的transformer架构——如Longformer、Reformer、Performer、Linformer和Big bird——通常会牺牲性能，因此未能得到广泛应用。

王位的挑战者

这就把我们带进了可能是当今研究领域最丰富的领域，即努力创造transformer的替代品。这一研究流派的指导原则是用一种亚二次方扩展的新函数来取代Attention。亚二次方缩放将开启新的AI模型，这些模型（1）计算密集度更低，（2）与transformer相比，能够更好地处理长序列。当然，挑战在于，在实现这一目标的同时，还要与transformer的整体性能相匹配。

2021年，斯坦福大学的克里斯·雷（Chris Ré）实验室的一项名为S4的研究为这一研究途径奠定了基础。随后，基于 S4 的一系列前景看好的亚二次方架构相继问世。

S4家族中最有趣的新架构之一是Hyena，几个月前由包括克里斯·雷本人和约书亚·本吉奥在内的强大团队发布。

为了代替Attention，Hyena使用了另外两个操作：长卷积和矩阵逐元素乘法。

卷积是机器学习领域最古老的方法之一，最早是由Yann LeCun在20世纪80年代提出的。Hyena在这个古老的架构上的新做法是根据序列长度拉伸和改变卷积过滤器的大小，以提高计算效率。

Hyena的初步结果令人欣喜。对于非Attention语言模型而言，该模型达到了最新的性能水平。在某些情况下，它可以与transformer的性能相媲美，同时大大减少了计算量。重要的是，随着序列长度的增加，Hyena相对于transformer的效率提高会变得更加显著，这凸显了它们在超长输入中的优势：在8000个词元序列长度下，Hyena运算符的速度是Attention的两倍，而在64000个词元长度下，Hyena运算符的速度是Attention的100倍。

正如Hyena的作者所说：“打破二次方的障碍是迈向深度学习新可能性的关键一步，例如使用整本教科书作为上下文，生成长篇音乐或处理千兆像素级别的图像。”

至少带着一丝嘲讽，作者补充道：“我们在亚十亿参数尺度上取得的可喜成果表明，Attention 可能不是我们所需要的全部。”

Hyena架构的一个引人注目的早期应用是HyenaDNA，这是斯坦福大学推出的一种新的基因组学基础模型。利用 Hyena 处理长序列的卓越能力，HyenaDNA 拥有高达 100 万个词元的上下文窗口。人类基因组是现存最长（更不用说最重要）的数据集之一：每个人的DNA包含32亿个核苷酸。这使得它成为像 Hyena 这样擅长捕捉长距离依赖关系的模型架构的理想用例。

HyenaDNA的作者为这项技术未来的发展提供了一个诱人的暗示：“想象一下，能够用整个人类基因组来向ChatGPT提问——问一些关于可能的疾病的问题，预测药物反应，或者根据你的特定遗传密码指导治疗方案，这不是很方便吗？”

这里需要注意的一点是，Hyena最初的工作是在相对较小的规模上开展的。最大的Hyena模型有13亿个参数，而GPT-3有1750亿个参数，GPT-4（传闻）有1.8万亿个参数。Hyena架构的一个关键考验是，当它的规模被放大到当今transformer模型的大小时，它是否能继续展示出强大的性能和效率提升。

该系列中的其他新型深度学习架构包括 Monarch Mixer（也来自斯坦福大学克里斯·雷的实验室）、BiGS（来自康奈尔大学和DeepMind）和 MEGA（来自 Meta）。

像Hyena一样，所有这些模型都具有亚二次方缩放特征，这意味着它们比transformer更具计算效率，更适合处理长序列。和Hyena一样，它们都很有前途，但尚未得到证实：它们中是否有任何一种能够在当今transformer模型运行的规模下保持强劲的性能，还有待观察。

退一步说，计算效率和远程依赖关系并不是新架构旨在改进的transformer的唯二两个弱点。

Transformer模型的另一个限制是它们不能持续学习。今天的transformer模型有静态参数。当一个模型被训练时，它的权重（神经元之间连接的强度）是被设置好的；这些权重不会根据模型在现实世界中部署时遇到的新信息进行更新。

另一个常被提及的限制是transformer缺乏可解释性。基于transformer的模型都是“黑匣子”：它们的内部运作过于复杂和不透明，以至于人类无法准确理解它们的行为方式。对于安全关键型或高度受监管的应用（如医疗保健领域）来说，这可能是一个真正的问题。

液体神经网络（Liquid neural networks）是另一个试图挑战transformer的热门AI新架构，它声称可以解决这两个缺点。

由拉明·哈桑尼（Ramin Hasani）和丹妮拉·鲁斯（Daniela Rus）领导的研究小组在麻省理工学院创建了液体神经网络，其灵感来自生物学，特别是秀丽隐杆线虫（Caenorhabditis elegans）的大脑的工作方式。其名称中的“液体”指的是这样一个事实，即模型的权重是概率性的，而不是恒定的，因此可以根据模型所接触的输入而变化。

液体神经网络也比现在的transformer模型小得多。在最近的一次概念验证中，麻省理工学院的团队建立了一个自动驾驶汽车系统，该系统仅用19个神经元和253个参数就能成功地在公共道路上行驶。

“每个人都在谈论扩大他们的网络，”哈桑尼说。“我们却希望缩小规模，拥有更少但更丰富的节点。”

除了计算效率之外，这种更小的架构意味着液体神经网络比transformer更透明，更易于人类阅读。毕竟，对于人类观察者来说，解读一个拥有253个连接的网络中发生的事情，要比解读一个拥有 1750 亿个连接的网络中发生的事情更加切实可行。

鲁斯是世界领先的机器人专家之一，而液体神经网络似乎也特别适合机器人应用，包括自动驾驶汽车和无人机。它们只能处理时间序列数据（即具有时间维度的数据），这意味着它们不能应用于图像或其他静态数据模式。

值得一提的还有为打造“transformer之后的东西”所做的最后一项努力。《你需要的只是Attention》这篇论文的八位合著者之一的利昂·琼斯最近离开了谷歌，与前Stability AI）研究主管大卫·哈（David Ha）一起创办了一家名为Sakana AI的新公司。

Sakana的任务是用一种基于进化原理的自然启发的智能方法来改进transformer。团队愿景的关键是集体或群体智能的概念，即由许多小模型组成的系统协同行动，而不是一个单一的模型。

“学习永远是赢家，”琼斯说。“人工智能的历史反映了这样一个现实，即让一个模型自己学习一些东西总是比人工设计它更好。深度学习革命本身就是一个例子，毕竟我们已经从手工构建特征检测器进化到让神经网络学习自己的特征。这将成为我们Sakana AI的核心理念，我们将从自然中汲取包括进化在内的想法来探索这个领域。”

遥远的地平线

必须要说，Transformer是一个非常强大的AI架构。

它已经成为现代人工智能的基础。几乎所有先进的AI系统都是基于transformer；每个人工智能研究人员都已经习惯于使用transformer。在过去几年里，成千上万的研究人员在彼此的工作基础上对transformer进行了优化。

这为它们提供了强大的在位优势，使其难以被取代。

然而，在聚光灯和人工智能炒作的回音室之外，开发下一代人工智能架构的工作正在如火如荼地进行，这些架构在不同方面都优于transformer。

虽然这些工作仍处于早期阶段，尚未得到证实，这些新架构是否能成功取代transformer也还远未确定，但如果他们做到了，对人工智能世界的影响将是巨大的。

在transformer时代之前，不同的AI架构在不同的用例中各自占主导地位：递归神经网络用于语言领域，卷积神经网络用于计算机视觉领域，强化学习用于游戏领域，等等。

近年来，随着transformer在一个又一个领域证明了自己是最先进的，从语言到视觉到机器人再到生物学，人工智能方法论的逐步统一令人瞩目。

然而，这种走向统一的趋势——“一个人工智能架构来统治所有的人工智能”的趋势——并不会无限期地持续下去。

可以想象，未来会出现另一种情况：随着未来几年人工智能研究前沿的发展，新的架构会被开发出来，并被证明它们更适合特定领域。举例来说，也许transformer在语言处理领域仍将占据主导地位，但新型架构很快就会取代transformer，成为机器人领域的最先进架构。

又或许，一种新的人工智能方法会被开发出来，它的性能会超越transformer，并迅速取而代之。

只有一件事是肯定的：今天的人工智能领域发展如此之快，如此充满活力，以至于我们应该预料到变化会来得快到让人不舒服。我们不应该把任何事情视作理所当然，而应该为未来所带来的惊喜做好准备。

本文作者是风投机构Radical Ventures的合伙人，也是福布斯撰稿人，文章内容仅代表作者本人观点。译自https://www.forbes.com/sites/robtoews/2023/09/03/transformers-revolutionized-ai-what-will-replace-them/？sh=580627fe9c1f

人工智能 Google 技术深度学习赫尔克里·波洛科幻小说

上一篇：电影《时间机器》中：探寻未知的奇幻境界，穿越时光的冒险

下一篇：从机务兵到电气工程一级学科带头人，他始终坚持着两件事