机器学习的教训：5家公司分享的错误经验

　　机器学习也可能会呈现严重的问题，以致于可能会让你懊悔当初如此匆忙地采用它。

　　机器学习是当下的抢手技术之一，许多业务和技术高管都在争相理解他们的组织能够如何参与其中。假如操作得当，机器学习能够协助您创立更有效的销售和营销活动，改良财务模型，更轻松地检测狡诈，进步设备的预测性维护，益处不一而足。

　　但是机器学习也可能会出严重的错误，让你悔不应当初。依据采用机器学习的公司的实践经历，这里有五种机器学习可能出错的方式。他们分享了他们的经历，希望你能够汲取经历以防止同样的失败。

　　经验1:错误的假定使机器学习偏离了轨道

　　Projector PSA是美国一家设计和制造专业效劳自动化软件的公司，并协助咨询公司运营业务。当它试图用机器学习来预测人员配置方案的差别时，它惨痛地汲取了这一经验。

　　由于咨询公司里面都是专业的、锻炼有素的参谋，能有效天时用他们的才干，所以公司经常需求雇佣项目经理来评价和预测他们项目的人员需求。

　　然后，他们跟踪参谋花在每个项目上的时间，以便向客户收取费用。假如组织在单一系统(例如专业的效劳自动化工具)中同时管理这两项活动，则有一些明显的优势，例如可以将预测与实践时间停止比拟，从而理解不同的项目经理在规划方面的精确性。

　　Projector PSA的首席运营官Steve Chong回想说，该公司与一位客户开端了一项研讨，该客户雇佣了数百名的项目经理。它树立的模型比拟了在不时增加的规划范围内实践工作的均匀小时数与预测小时数之间的差别。它还在几个月的时间里研讨了项目经理预测的分歧性以及可变性。

　　也就是说，假如在一周内预测过高，而在下一周预测过低(高可变性)，Projector PSA希望晓得这两者能否可以互相抵消，让预测的均匀值差别很小，或者说方差很小。

　　“最初的前提是低方差和低可变性是好的，而高方差和高可变性是坏的，”Chong说。基于这一前提，Projector PSA完成了一种机器学习算法，将项目经理分为不同的群体，比方“囤积者”和“悲观主义者”，基于这些数据，该算法运用公司项目经理的样本作为锻炼集。

　　然后，公司让机器学习算法依据学到的学问对剩下的项目经理停止分类。事实证明，它将一些公司最有经历和受过良好培训的项目经理列为了最糟糕的违规者，由于他们具有高的方差和高的可变性。

　　他说:“事实上，这些项目经理是公司可以针对那些曾经堕入窘境的项目提出处理计划的人，他们希望这些项目可以得到控制。”

　　相似地，最初的机器学习算法对一个项目经理的评价很高，由于她的方差和可变性简直为零。但事实证明，她将预测的时间发送给她的团队，隐含着一种希冀，即他们会将这些时间报告为他们实践工作的时间。Chong表示，这招致了她从未超出预算或呈现预算缺乏的场面，但这样做实践上鼓舞了她的团队以不利于大局的方式行事。

　　“这些错误不是机器学习算法自身形成的，而是我们最初锻炼它们时的假定形成的，”Chong说。“它们只是复原了完整依赖于数据而没有充沛理解数据所代表的理想。”

　　一旦该公司锻炼其机器学习算法辨认了这些新的配置文件，它就会觉得它能更好地反映理想。

　　经验2:无监视的机器学习可能会有意想不到的偏向

　　固然许多任务能够经过机器学习来完成，但是由于有些状况在项目开端时并没有被思索到，从而招致机器学习产生了错误的结果。这就是巴西金融效劳公司Mejor Trato的遭遇，该公司将机器学习作为人力资源部门数字化转型的一局部。

　　该项目触及让潜在的新员工经过实时聊天和运用公司内部开发的机器学习聊天机器人来答复一系列问题。

　　最初运用聊天机器人时呈现了两个关键问题。一个是请求求职者填写了错误的个人材料/职业表格。另一个问题是，给出了与人力资源员工会议堆叠的面试时间，这意味着人力资源员工无法依据需求监控聊天机器人。

　　CTO Cristian Rennella表示，在最初几周，HR团队中的一些人需求对每一次对话停止监控，以便在必要时纠正机器人，这一点至关重要。“我们犯了一个错误，以为一切都处理了，没有监视就分开了聊天机器人，”她说。经验是“不要遗忘在几个月内持续监控聊天机器人的全职工作。”

　　由于没有对聊天机器人停止微调，该公司判定，搜集到的数据中有10%是错误的。

　　Rennella说:“机器学习在一开端可能会对90%的答案有用，但是剩下的10%应该由人工监视来修正算法。”随着时间的推移，可用性将从90%增加到99%，“但我们不能中止关注可能呈现的偏向以至新状况，当我们开端这个项目时，这是出人意料的，”她说。

　　经验3:糟糕的数据标注会损伤机器学习的结果

　　俄罗斯的两家关联公司Ashmanov神经网络和SOVA(智能开放式虚拟助理)在为其商业客户开发基于机器学习的产品。其内容包括了视频剖析、自然言语处置、信号处置和神经网络。

　　两家公司的首席执行官Stanislav Ashmanov表示，公司在机器学习方面遇到的最大问题之一是基于标签难度的糟糕数据。 “提供高质量的数据标签是十分艰难的，”Ashmanov说。“通常状况下，从事数据标识工作的人都很草率，由于他们经常只是匆忙地工作着。更重要的是，以一种每个人都能以同样的方式和了解任务的方式来传送任务是十分艰难的。”

　　因而，这些数据可能包含多个标志的样本，比方图片中错误辨认的轮廓，这些样本对锻炼后的神经网络的性能几产生了一些影响。

　　在短时间内搜集所需的大量数据也很有应战性。Ashmanov说，数据搜集可能需求几个月的时间。此外，从公开渠道搜集的数据，比方在互联网上找到的数据，并不总是可以精确地反映理想。例如，在工作室或实验室拍摄的照片可能与理想生活中的街景或工厂消费单元快照截然不同。结果，这样锻炼出的神经网络的性能会很低。

　　作为客户项目的一局部，当公司锻炼神经网络来辨认在线自拍中的眼镜时，就呈现了一个可能出错的例子。他们从社交媒体上搜集了一些照片并贴上标签。Ashmanov说，神经网络的表现质量很低，由于它把眼睛下面有黑眼圈的人误以为戴着眼镜。

　　另一个客户提交了一个城市的两幅卫星图像。任务是在图像中标志汽车，并教神经网络辨认它们并计算它们的近似数量。在这个例子中，问题是神经网络将建筑屋顶上的壁架也辨认为汽车，由于它们在外观上类似——它们都是小的、矩形的，而且大多是深色的。

　　“这一切都取决于对特殊案例的认真研讨，创立启示式办法，以及改良初步数据处置和后处置证明检查，”Ashmanov说。

　　经验4:过于细微的分类问题可能会混杂机器学习

　　Casepoint是美国一家为法律行业和其他市场提供电子发现技术的公司，它也阅历了机器学习算法的缺陷问题。该公司运用机器学习来停止文档分类和预测剖析。经过运用这项技术，法律团队能够大大减少检查和分类文件的时间。

　　首席战略官David Carns表示，应用机器学习对文件停止分类是有效的，但并非白璧无瑕。该公司发现的一个弱点是，人们会过度依赖机器学习来处理奇妙、复杂的分类问题。

　　例如，在法律范畴，机器学习文档分类器经常用于辨认响应“生成文档恳求”的文档。甲方请求提供与特定主题或内容相关的文档，乙方能够运用机器学习文档分类器停止分类来协助挑选文档存储库以获取响应文档。

　　Carns说，这种办法十分有效，律师曾经开端定期运用这种技术来辅助检查(TAR)文件。“这种胜利招致人们希望可以自觉地运用机器学习文档分类器来停止更细微的分类，例如辨认受律师-客户特权维护的文档，”他说。

　　固然运用机器学习对文档分类器停止特权文档内容的锻炼很容易，但是如何使文档具有合法特权在很大水平上取决于文档的受众、失密性、接纳时间以及与法律咨询或诉讼的关系。Carns说，大多数机器学习文档分类器无法对这些额外的上下文线索停止充沛分类。

　　Carns说:“这并不意味着机器学习文档分类器不能协助对潜在的特权文档停止选择和分类。但法律专业人士不应仅仅依托机器学习来肯定特权。”他说，往常，人类律师需求手动检查潜在的特权文件，以便最终决议能否适用法律特权。

　　经验5:测试/锻炼数据的污染可能会影响机器学习

　　美国自动化公司Indico多年来不断在为客户提供企业人工智能和深度学习效劳，它不时遇到的最大问题之一是机器学习测试和锻炼数据的污染。

　　CTO Slater Victoroff说，一个客户正在创立一个模型来肯定一条新闻能否会影响其股价。由于很难精确地肯定影响时间，所以公司创立了一个模型来预测第二天的影响。

　　“他们没有认识到的是，他们疏忽了确保测试/锻炼数据完整分开的数据科学根底，”Victoroff说。“因而，在预测第二天的影响方面，他们给出了接近100%的精确率，而实践上，这个模型并不会比随机的模型更好。”

　　另一次体验则触及到一名客户查看其内部自然言语处置( NLP )系统。客户有一个团队，多年来不断在为机器学习模型创立和更新功用，并依据同一组搜索结果不时测试这些功用。该团队也阅历了测试/锻炼数据污染的影响。Victoroff说:“假如你看到你的测试错误就改动你的算法来改良你的测试错误，你的数字就不再精确了。”

　　在一些特殊状况下，人们对该问题的了解常常缺乏。在内部，该模型关于特定任务完成了接近100%的精确性。“但在消费过程中，该系统常常无法正常运转，由于他们无意中污染了他们的结果，”Victoroff说。“任何组织在机器学习中最关键的错误都是测试/锻炼数据的污染问题。”