一份关于机器学习“模型再训练”的终极指南“必赢|bwin”
发布时间:2024-10-25 18:16:01
本文摘要:【IT168技术】机器学习模型的训练,一般来说是通过自学某一组输出特征与输入目标之间的同构来展开的。

【IT168技术】机器学习模型的训练,一般来说是通过自学某一组输出特征与输入目标之间的同构来展开的。一般来说,对于同构的自学是通过优化某些成本函数,来使预测的误差最小化。在训练出有最佳模型之后,将其月公布上线,再行根据未来分解的数据分解精确的预测。这些新的数据示例有可能是用户交互、应用于处置或其他软件系统的催促分解的——这各不相同模型必须解决问题的问题。

在理想情况下,我们不会期望自己的模型在生产环境中展开预测时,需要像用于训练过程中用于的数据一样,精确地预测未来情况。当我们将模型部署到生产中时,往往不会假设未来将用于到的数据不会类似于过去模型评估期间所用于的数据。具体来说,我们可能会假设,特征和目标的产于将维持非常的恒定。但是这种假设一般来说不正式成立。

趋势不会随着时间的流逝而变化,人们的兴趣不会随着季节的变化而变化,股票市场不会不稳定的。因此,我们的模型必需适应环境这些变化。

世界是持续变化的,因此模型部署不应视作一个倒数的过程,而不是已完成第一次部署之后就扭头去积极开展下一个项目。如果机器学习团队的工程师找到数据分布与完整训练集的数据分布有显著进出,则必须新的训练模型。

这个现象——一般来说被称作模型飘移(modeldrift)——可以减轻,但是不会带给额外的支出,如监控基础设施、监督和流程等等。在本文中,笔者想要对模型飘移下定义,并辩论如何去辨识和追踪模型飘移。然后,我将叙述如何新的训练模型,来减低飘移对预测性能的影响,并对应多久新的训练一次模型作出建议。

最后,我将讲解落成模型新的训练的几种方法。什么是模型飘移?模型飘移是指,由于环境的变化违背了模型假设,而造成模型的预测性能随时间而减少。模型飘移有点用词不当,因为变化的不是模型,而是模型运营的环境。

因此,概念飘移(conceptdrift)一词实质上有可能是一个更佳的用词,不过两个术语都叙述了完全相同的现象。请注意,笔者对模型飘移的定义实质上还包括几个可以变更的变量。

预测性能将上升,它将在一段时间内以某种速率上升,并且这种上升不会归咎于违背建模假设的环境变化。在确认如何诊断模型飘移以及如何通过模型再行训练缺失模型飘移时,不应考虑到这些变量中的每一个。

如何追踪模型飘移?目前业内有数多种辨识和追踪模型飘移的技术。在讲解这些技术之前,值得一提的是,并没一种万能的方法。

有所不同的模型问题必须有所不同的解决方案,您有可能有、也有可能没适当的基础架构或资源来利用某些技术策略。模型性能降级辨识模型飘移的最必要方法是具体预测性能否已上升,同时分析这种上升。测量动态数据上已部署模型的准确性是一个众所周知的难题。

之所以经常出现这种艰难,部分原因是我们必须采访分解的模型的预测和基本事实信号。出于以下这些原因,这有可能无法构建:·预测的数据在分解后没存储——别让这种事再次发生在你身上。·预测已存储,但是您无法访问基本事实标签。

·预测和标签皆能用,但无法融合在一起。即使预测和标签可以拆分在一起,也有可能必须一段时间才能用于标签。例如一个可以预测下一季度收益的财务预测模型。

在这种情况下,只有在该季度过去之后才能仔细观察到实际收入,所以直到那个时候你才需要分析模型的效果。在此类预测问题中,开挖预测(即训练模型,并根据过去的历史数据分解预测)可以协助您理解模型性能上升的速度。

正如JoshWills认为的那样,在部署模型之前您可以做到的最重要的事情之一就是企图理解离线环境中的模型飘移。数据科学家应想办法问以下问题:“如果我用于六个月前的数据对这两组特征展开训练,并将其应用于今天分解的数据,那么这个模型比我一个月前予以训练而创立并应用于到今天的模型劣多少呢?”。离线继续执行此分析,您可以估算模型性能上升的速度以及必须新的训练的频率。当然,这种方法的前提是要有一台“时光机”来采访过去任何时候的动态数据。

检查训练和动态数据的特征产于由于随着输出特征的产于渐渐背离训练数据的产于,模型性能不会上升,因此较为这些产于是推测模型飘移的好方法。请注意,这里说道的是推测而不是检测模型飘移,因为我们没仔细观察到预测性能的实际上升,而是“预计”不会经常出现上升。在由于数据分解这一过程的性质,而无法仔细观察到实际基本事实的情况下,这不会十分简单。

每个特征必须监控许多有所不同的东西,还包括:有可能值的范围值直方图该功能否拒绝接受NULL,如果是,则预期的NULL数量需要通过掌控界面较慢监控这些产于,是朝正确方向迈进的一步。当特征差异相当大时,可以通过自动追踪训练服务偏差并在特性差异明显时收到警告,更进一步构建这一点。

检查特征之间的关联许多模型不会假设特征之间的关系必需维持相同。因此,您还必须监控各个输出特征之间的交替关联。

如您的ML测试分数是多少?ML生产系统的规范等等,可以通过以下方法构建:监控特征之间的相关系数训练具备一两个特征的模型训练一组模型,每个模型都移除其中一个特征检查目标产于如果目标变量的产于再次发生贞着变化,那么模型的预测性能完全一定会变差。《机器学习:技术债务高息信用卡》的作者认为,一种非常简单而简单的临床方法是跟踪目标产于。与训练数据的偏差有可能意味著必须新的评估部署模型的质量,但请求忘记,“这决不是一项全面的测试,因为它可以通过空模型来符合,该模型可以非常简单地预测标签经常出现的平均值,而需要考虑到输出特征。

”模型再行训练究竟是什么意思?模型再行训练或许是一个超负荷的操作者,它否只牵涉到到找寻现有模型架构的新参数?对于变更超强参数搜寻空间怎么样?如何搜寻有所不同的模型类型(RandomForest,SVM等)?我们可以还包括新的特征还是可以回避以前用于的特征?这些都是很好的问题,因此尽量具体这些问题是十分最重要的。要问这些问题,最重要的是必要考虑到我们要解决问题的问题——也就是说,增加模型飘移对我们部署的模型的影响。

在将模型部署到生产数据之前,科学家必须经过严苛的模型检验过程,其中还包括:编撰数据集–搜集来自有所不同来源(例如有所不同数据库)的数据集。特征工程–从原始数据中萃取佩,提升预测性能。模型自由选择–较为有所不同的自学算法。

错误估算–在搜寻空间上展开优化,寻找最佳模型并估算其一般化误差。此过程不会产生一些最佳的模型,然后将其部署到生产中。由于模型飘移明确是指所中选模型的预测性能由于特征/目标数据分布的变化而上升,因此模型再行训练不应当带给有所不同的模型分解过程。清楚地说道,新的训练只是所指在新的训练数据集上新的运营分解先前自由选择的模型的过程。

功能、模型算法和超强参数搜寻空间都不应维持完全相同。可以这样想要,再行训练不牵涉到任何代码变更,只牵涉到转变训练数据集。这并不是说道模型的未来递归不不应包括新的特征或不考虑到其他算法类型/体系结构。

只是说道,这些类型的变更不会产生几乎有所不同的模型——在部署到生产环境之前,应当对它们展开有所不同的测试。根据您的机器学习团队的成熟期程度,理想情况下,此类变更将与A/B测试一起引进,以测量新的模型对预先确定的兴趣指标(例如用户参与度或保有亲率)的影响。

应当多久新的训练一次模型到目前为止,我们早已辩论了什么是模型飘移以及辨识它的多种方法。于是问题就变为了,我们该如何解决问题?如果模型的预测性能由于环境变化而上升,解决方案是在体现当前实际情况的新训练集上对模型展开新的训练。

那么,您应当多久新的训练一次模型?如何确认新的训练集?对于最艰难的问题,答案是视情况而以定。但如何视情况而以定呢?有时机器学习问题本身不会得出何时必须新的训练模型的建议。

例如,假设您正在一家大学招生办工作,并负责管理创建一个可以预测学生下学期否不会回去的学生萎缩模型。该模型将在期中后必要用作对当前学生群体展开预测。被确认有萎缩风险的学生将自动被划入辅导课程或其他介入措施。

下面我们思维一下这种模型的时间范围。由于我们每学期一次批量分解预测,因此没适当再行频密地新的训练模型,因为我们将无法访问任何新的训练数据。因此,在仔细观察上学期的哪些学生休学后,我们有可能自由选择在每个学期开始时新的训练我们的模型。这就是定期再行训练计划的一个示例。

从这个非常简单的策略开始,往往是一个好办法,但是您必须确认新的训练的频率。较慢变更的训练集有可能必须您每天或每周展开一次训练。较快的发售版本有可能必须每月或每年展开新的训练。

如果您的团队早已不具备了监控上一节中所辩论的度量标准的基础设施,那么将模型飘移的管理自动化有可能是有意义的。这个解决方案必须追踪临床,然后在动态数据上的临床与训练数据临床不同时启动时模型再行训练。但这种方法也有其自身的挑战。

首先,您必须确认一个收敛的阈值,它将启动时模型再行训练。如果阈值太低,则您可能会过分频密地展开再行训练,从而带给低计算成本。

如果阈值过低,则可能会因为不常常展开再行训练,而造成生产中的模型稍劣质。这比看上去要简单得多,因为你必需去确认,要搜集多少新的训练数据,才能代表世界的新状态。在世界早已再次发生转变时,用一个训练集太小的模型来替换现有的模型也是没意义的。如果您的模型早已在对抗性环境中运行,则必须尤其考虑到。

在诸如欺诈检测这样的设置中,对付方会转变数据分布以使自己利润。这些问题可以从在线自学中获益,在这之中,模型随着新的数据的经常出现而不断更新。如何新的训练模型?最后,但并非最不最重要的一点,我们必须辩论如何新的训练模型。您用作模型再行训练的方法与您要求再行训练的频率必要涉及。

如果您想定期去新的训练模型,那么批量展开新的训练就几乎充足了。这种方法牵涉到用于工作调度程序(例如Jenkins或KubernetesCronJobs)定期地调度模型训练过程。

如果您具备自动模型飘移检测功能,那么在辨识出有飘移时启动时模型新的训练就很有意义。例如,您有可能有定期的工作,将动态数据集的特征产于与训练数据的特征产于展开较为。当辨识出有显著的偏差时,系统可以自动决定模型再行训练以自动部署新的模型。某种程度,这可以通过诸如Jenkins的作业调度程序或用于KubernetesJobs来继续执行。

最后,利用在线自学技术改版当前正在生产的模型有可能也是有意义的。这种方法依赖用于当前部署的模型去“采收”一个新的模型。随着新的数据的产生,模型参数将用于新的训练数据展开改版。

结论一般情况下,将模型部署到生产环境时,机器学习模型的预测性能往往都会上升。因此,工程师必需通过设置特定于ML的监控解决方案和工作流来落成模型新的训练,从而为性能上升作好打算。虽然新的训练的频率因明确问题而异,但ML工程师可以从非常简单的策略开始,随着新的数据的来临,该策略不会定期对模型展开新的训练,并发展为对模型飘移展开分析和作出反应的更加简单的过程。


本文关键词:必赢|bwin,必赢网站入口,必赢网站app,bwin必赢手机登录入口,Bwin·必赢唯一官方网站,必赢bwinapp官方网站

本文来源:必赢|bwin-www.xiaociya.top