构建实时机器学习管道的挑战
实时机器学习正在兴起,随着公司开始将实时引入他们的机器学习管道,他们发现自己不得不权衡性能、成本和基础设施复杂性之间的权衡,并确定哪些是优先考虑的。
在这篇文章中,我们将看看在从批处理到实时过渡的每个阶段发生的一些最典型的权衡,以及为什么这些优势和劣势是必须牢记的。
实时机器学习的典型路径
批量处理在数据不经常变化的情况下是最有用的,这在现在是很罕见的。它曾经被认为是采用机器学习的一种较低成本的方法,但许多使用批处理的公司开始意识到,对于那些不是每天都访问他们网站的用户的相关数据,在计算和存储上浪费了很多钱,所以预先计算的特征(他们预先花钱计算,现在又花钱存储)没有被查阅。这些公司正朝着实施实时机器学习的方向发展,尽管每一个计算单位对于实时来说都是比较昂贵的,因为这往往可以通过加快迭代周期,让他们只使用和存储相关的数据来节省资金。这种潜在的成本降低只会使公司在使用更多的最新数据时看到的模型性能优势更加突出,并能更快地对市场或用户偏好的变化做出反应。
如果你想进一步了解实时机器学习的优点,请查看我们的博文,内容是7个理由说明为什么实时机器学习会在这里继续存在.
第一阶段:所有都是批处理
全批处理的实时机器管道是构建实时机器管道最常见的方法。在这种情况下,特征从一个批处理源计算,如Snowflake或S3,模型预测为每个用户/场景提前计算,存储,并在需要时提供。在某些情况下,模型预测甚至不在线提供(例如通过Redis);在这些情况下,一个批处理作业读取所有的模型分数并执行一个动作或计算(例如,如果模型预测用户是否会流失,一个管道读取这些分数并决定向他们发送电子邮件,所有这些都是离线发生的)。
批量机器学习管道的最大优势是,它相对容易设置,不需要实时数据。然而,缺点是批处理管道可能是缓慢和低效的,使它们不太适合大规模或时间敏感的数据。
挑战
所有批处理机器学习管道的最大挑战之一是陈旧的预测和开发一个修复它们的过程,或任何其他问题。因为数据被存储在一个静态的地方,你需要在训练前获取和处理数据。这个过程变得很乏味,因为任何时候你需要进行更新,无论多小的更新,你都需要再次经历获取、处理和训练的整个过程。在大多数情况下,这意味着许多采用批处理的公司并没有频繁地训练他们的模型,使其真正有用(因为他们不是最新的)。
另一个原因是,批处理程序需要巨大的数据集来保存所有的数据,因为你是为所有的用户(甚至只是所有的活跃用户)计算,而且没有任何个性化。这在一些特定的、简单的情况下可以起作用,但在我们目前的快节奏、高动态的世界中,对大多数情况并没有用。此外,在改变你的数据方面缺乏灵活性和速度,这对任何新用户的个性化都是一种挑战;第一印象对创造重复用户和减少用户流失是非常重要的,所以这种无法对新用户进行适当的个性化的情况会对企业产生重大影响。
上述的挑战也导致了实验速度的明显延迟。对于大多数公司经历的前三个阶段,模型的训练是有间隔的,但相对而言,批处理的间隔要长得多,因为你是在用静态的数据和模型工作,所以每次你给它提供新的数据时,要确定你的模型是在改进还是在漂移,这是非常耗时的。
阶段2:用实时模型批量计算的特征
当公司开始将实时性整合到他们的机器学习管道中时,他们通常开始继续使用批量特征,但让模型实时使用批量计算的特征;模型实时提供服务,但计算的特征是在一个键值存储中。通过这种实现方式,你可以得到熟悉的静态数据的轻松和简单,但开始看到更多最新的模型和预测的一些准确性和性能优势。
挑战
随着特征被批量计算,你仍然必须确保你没有使用陈旧的特征,并且需要间隔训练模型,但这些间隔可以比所有批处理过程更短,因为你的反馈回路更短。既然如此,你现在必须注意你的模型服务,因为这是唯一的服务部分,所以它必须是可靠的,并有良好的服务水平协议。
如果不增加工作,你也不能完全获得实时的好处,因为你的功能仍然是静态的;即使你的模型是实时提供的,也需要大量的工作才能使用应用上下文。由于有许多移动的部件,你的模型是实时的,数据验证和监控需要到位,以帮助捕捉数据质量问题和模型漂移,以免它开始影响业务指标。这意味着需要将日志记录到位,工程师需要随时待命。
由于你的机器学习管道的任何元素都是批量计算的,你也无法解决现代网站和应用程序的一些最重要的用例。例如,在社交网站、新闻应用程序和大多数试图抓住和保持用户注意力的平台上,人们期待个性化的内容和馈送(甚至是下意识的),而批量计算的功能根本不允许有足够快的迭代来提供这种用户体验。欺诈检测对于大多数商业用例来说也是必须的,但这需要几乎立即识别并对不良行为者采取行动,而这在批量计算的功能中也是不可行的。
第三阶段:实时模型和特征,间隔模型训练
特征是实时的,而模型是实时的,并在间隔时间内进行训练。事实上,模型在使用实时更新的特征时,消除了之前阶段的大部分呆板问题。这个实现是你真正开始能够挖掘像欺诈检测这样的用例的地方,在那里你需要能够即时检测并对偏离模型预测的行为或趋势采取行动。
挑战
随着你的系统的更多部分成为实时的,更多的移动部件被引入,这增加的复杂性使你的管道更难维护。如果你从头开始构建东西,保持一个良好的SLA可能是困难的,负责不同元素的团队必须学会协调他们的努力。负责编写机器学习管道和管理功能的数据工程师需要与负责将模型投入生产的机器学习工程师协调,这些模型需要由数据科学家进行培训,所有这些人都需要同步进行;起初,这种协调需求会降低团队速度。
监测在这个阶段变得更加重要,因为你的数据变化得更快。模型最终还是会退化的,所以重要的是你要有坚实的漂移检测机制,并且在检测到漂移时有能力训练新模型。
数据更快速的变化也意味着你需要注意训练数据与服务时间的数据之间的偏差;你用来训练模型的特征与你进行预测时使用的特征看起来会略有不同。你可以使用记录和等待的方法,但这可能会使你更难试验新的特征,因为这很耗时,而且会降低你的速度。一个更准确的方法是使用时间点回填,但这很快会变得复杂。
然而,实时特征计算的另一个问题是处理坏的或失序的数据。当使用实时特征时,需要采取一些方法来处理可能不按时间顺序出现的数据,这些因素包括用户的设备在连接不畅时缓冲它发回给你的数据;在预测行为和建立让用户感到直观的工具时,用户行为的顺序往往和行为本身一样重要,而当工具感到直观时,用户会继续使用(和推荐)它们。如果你的数据被破坏,在实时特征上训练的模型也会变得不准确;这可能是一些坏的数据点的结果,或者像一个特征所使用的单位的变化没有被正确地传达给机器学习工程师。为了解决这个问题,最理想的做法是对进入系统的每个数据点进行数据正确性检查。
随着更多方面的实时性,最后一个大的挑战是,预测什么模型在实践中表现最好变得更加困难;一个新训练的模型可能在纸上看起来很好,但在生产中可能表现很差。这就是金丝雀模型发挥作用的地方;当部署一个新的模型时,你可以在最初将它应用于一小部分请求,以确保它以你期望的方式运作。然而,这也增加了你系统的复杂性。
第四阶段:实时特征和模型,在线模型训练
到目前为止,最昂贵、最复杂、性能最强的方法是完全实时的机器学习管道;模型实时运行,特征实时运行,模型在线训练,所以它在不断学习。由于完全实时系统所需的时间、金钱和资源是如此广泛,这种方法不常被利用,即使是FAANG类型的公司,但我们在此强调它,因为这种类型的实时实施的能力也是不可思议的。
完全实时系统最常被用于广告预测等用例,该模型预测用户参与广告的可能性;当广告是你的商业模式时,每一分钱都很重要,完全实时的机器学习管道可以确保资源被有效分配。
挑战
在线模型训练严重依赖你的模型的 "快照 "来进行检查和平衡,以及对损坏的数据作出反应的能力(基本上是你的模型的版本系统)。模型快照只要有几个坏的训练数据点就很容易变坏,导致模型行为不稳定,所以这是周期的另一个部分,你需要采用出色的监控,以及随叫随到的设置,以便快速捕捉和恢复坏的快照,并知道要恢复到哪个快照。
此外,在这种类型的系统中,前一阶段提到的许多缺点都被放大了,因为事情的发展速度成倍增加。团队必须更有效率和沟通;需要为数据质量、漂移和训练偏差增加更多更好的检查点;模型实验变得更加棘手;有更多因素需要担心确保低延迟。对于大多数公司来说,维护这种类型的系统的成本超过了它所提供的好处;如果你甚至需要质疑你是否需要在线模型训练,你可能不需要。
最后的想法
在这篇文章中,我们回顾了不同实时机器学习管道的好处和缺点。虽然任何方法似乎都有不少缺点,但最重要的是要知道这些缺点是什么,这样你就可以在它们发生之前做好准备并减轻它们,而不是在你盲目进入时争先恐后地玩打地鼠游戏。缓解这些挑战是你可以决定在内部进行的,但也有许多工具可以帮助解决每种方法所涉及的复杂问题的子集,甚至还有一些,如 芬尼爾等,可以解决大部分(如果不是全部)问题。
虽然你的用例的理想方法将取决于你的模型所依赖的数据变化的速度,但许多公司正朝着在他们的ML管道中实施更多的实时方面发展,因为这种策略带来了性能上的好处。在第三方工具的帮助下,实现一个高性能的实时机器学习管道是相对容易的,它具有实时功能和实时模型,就像阶段3那样,并获得一个完全端到端的实时机器学习管道的好处,而没有通常伴随着实时机器学习管道的基础设施的复杂性。
原文于2022年11月18日发表于 https://fennel.ai 。
大家都在看
-
机器狼:巷战利器背后的科技突破与未来畅想】 前两天 【机器狼:巷战利器背后的科技突破与未来畅想】前两天,我在珠海航展现场,人群中偶遇一位老工程师。聊天间得知他已在国防工业战线摸爬滚打三十余载。说起这次展会上的”明星”机器狼,老工程师的眼里闪着光:”的无 ... 机械之最11-21
-
什么最可怕,未来战场机器狼群最可怕!#军事科技 什么最可怕?狼群最可怕。我国自主研究的机器狼来了,直接亮相珠海航展,还是群狼作战。很多人会问未来战争是什么样的?现在可以告诉你是无人装备。我国自主研究的机器狼作战小队现在有 4 个作战平台,它们之间可是 ... 机械之最11-17
-
碾压美军!中国机器狼群亮相珠海航展,武德充沛太残暴! 真的太酷啦!机器狗已经out了,解放军已经用上了“机器狼”,这把直接开启未来无人战争高端局。由中国兵器装备集团研发的机器狼群无人作战系统,首度在珠海航展动态展示,并迅速成为现场的焦点。岛内专家见到后直接 ... 机械之最11-16
-
2000年前人类的第一台计算机:安提基特拉机械之谜 全全探索局。说说历史上最大的谜团——人类发现了本不应该存在的古老计算机!1. 1900 年海绵潜水员在希腊小岛安提凯西拉附近发现了一艘沉船,他在海底发现了一只突出的青铜手,虽严重腐蚀但仍可辨认,他将发现报告给 ... 机械之最11-14
-
机械狼带给咱们的冲击感还没有消失呢 机械狼带给咱们的冲击感还没有消失呢,机械虎就横空出世了!这就像是在说,这台机器可不是你的玩具,它可是一个凶猛的野兽!这不禁让人联想起一些有趣的民间调侃,更让人深思这背后究竟蕴藏着怎样的军事理念?这些“ ... 机械之最11-14
-
当今最复杂的椭圆曲线找到了!29个独立有理点打破18年记录 选自quantamagazine作者:Joseph Howlett机器之心编译机器之心编辑部又是计算机帮了忙。对现代密码学稍有了解的人都必定听过椭圆曲线的赫赫威名,但椭圆曲线本身依然还存在很多悬而未决的问题。今天,量子杂志作者 J ... 机械之最11-12
-
实战版“汪汪队”来了 机器狗将首次亮相中国航展! 总台中国之声记者从兵器工业集团了解到,四条机器狗分队将参加地面装备动态演示环节,四足机器人具备综合打击、侦察探测、运输包装、操作处置等功能,将展示城市作战机动能力。启动、行走、爬坡、下楼……昨天在珠海 ... 机械之最11-09
-
机械硬盘这种“老古董”,怎么在大模型时代还供不应求了? 大家是不是觉得,搞人工智能就得买显卡、买网卡?其实啊,还有个被大家忽略的"主角"——存储设备,特别是咱们常说的硬盘。这不,最近硬盘价格蹭蹭往上涨,搞得大家直呼吃不消。你说硬盘这玩意儿,都快70岁"高龄" ... 机械之最11-08
-
每日数码科普之六十四:键盘什么轴好用?机械键盘轴体选择指南 机械键盘因其独特的手感、耐用性和可定制性,近年来越来越受欢迎。而机械键盘的核心在于“轴体”,它决定了键盘的手感、声音以及使用体验。不同的轴体适合不同的使用场景,因此选择一个适合自己的键盘轴体尤为重要。 ... 机械之最11-07
-
为神舟飞船造一顶“大伞”——走进中国航天科技集团五院508所航天器回收着陆团队 图①:11月4日,神舟十八号载人飞船返回舱在东风着陆场着陆。新华社记者 李志鹏摄图②:神舟飞船回收着陆分系统1200平方米主伞。图③:工作人员为神舟飞船包伞。(除署名外,照片由采访对象提供)11月4日凌晨1时24分 ... 机械之最11-07
相关文章
- 当今最复杂的椭圆曲线找到了!29个独立有理点打破18年记录
- 大国重器背后的“90后” 汪泽:精密机械的操控者 于毫厘之间细雕琢
- 合作共赢创未来——写在第七届中国国际进口博览会开幕之际
- 闫妮机械姬:科技与魅力交织的科幻新象
- 倒背191步枪,解放军公布一窝6只“机器狼”,战斗力到底有多强?
- 实战版“汪汪队”来了 机器狗将首次亮相中国航展!
- 机械行业的发展现状与未来趋势分析
- 机械硬盘这种“老古董”,怎么在大模型时代还供不应求了?
- 每日数码科普之六十四:键盘什么轴好用?机械键盘轴体选择指南
- 娜然仿生机械姬
- 为神舟飞船造一顶“大伞”——走进中国航天科技集团五院508所航天器回收着陆团队
- 机械行业发展前景如何?全面解析与展望
- 机械哪个方向好?
- 我国古代的计时仪之最
- 新车停在机械车位,最担心的事情发生了……
- 给敌人递刀子?中企帮印度建最大最强炼铁高炉,将损害长远利益?
- 美国对中国大学机械工程排名!网友:如梦如幻
- 每日数码科普之五十一:键盘的进化与现代趋势
- 2024年双十一机械键盘入门及选购推荐(含无线键盘、游戏键盘)
- 山东一只“机器狗”火遍全网!确实厉害→
热门阅读
-
天下第一暗器暴雨梨花针,传说中的唐门暗器做出来了 07-13
-
世界十大大型船舶排名,第一能承重六十万吨! 07-13