不要让数据科学成为一场骗局

现在的公司热衷于将数据科学视为点石成金的魔法，垂涎数据科学将带来的革命性成果，争相追随科技巨头，并翘首以待。他们重金聘请价格不菲的数据科学家和机器学习工程师，斥巨资投入到软件和硬件上，并花了很多时间畅想美好的未来。然而，尽管付出了这么多的努力和金钱，很多公司几乎没有从中获得任何实质性的好处。因为他们把资源浪费在了太多实验或没有明确商业用途的项目以及与实现组织目标不相干的活动上。

当曲终人散，钱也烧得差不多了，用于支持这些工作的资源也将消失殆尽。到了那个时候，数据科学将被视为一场骗局。

为了不让数据科学沦为骗局，并为我们带来真正的价值，企业需要考虑将数据科学从研究工作转变为业务和流程的组成部分。与此同时，他们还需要考虑建立真正的信息架构基础。我们为此构建了一个 AI 阶梯：数据基础、分析、机器学习、AI 和认知：

为了打破目前的这种只投资无回报的模式，企业可以尝试解决以下几个问题：

寻找、留住和培养合适的人才和团队
为数据和数据科学制定企业战略
实施数据科学计划
应对文化冲击

寻找、留住和培养合适的人才和团队

伟大的数据科学团队需要具备四种技能组合：数据工程师、机器学习工程师、优化工程师和数据记者。如果你想要吸引更多的候选人，请在发布工作岗位时尝试使用这四个职位和技能组合，而不是使用一刀切的“数据科学家”。

要想留住人才，需要注意几个方面的问题。首先，需要将团队与他们要实现的价值联系在一起：他们的项目如何影响业务线和整个企业?其次，他们需要感受到自己被赋能，并且知道有人在支持他们。最后，在为团队做出规划时，将 20-25%的空闲时间用于创新项目，比如参加类似 Kaggle 的比赛，以及学习新的工具和技能。花费这么多时间在生产力方面看起来似乎很昂贵，但它为团队提供了发展技能的途径——而且它比雇用和培训新人才更加有效。

为数据和数据科学制定企业战略

制定与实际价值(特别是成本规避、成本节省或净收入)相一致的决策。这是整个过程最重要的一环，也是将数据科学从研究转变为业务一部分必须跨出的第一步。简单地说，它要求在业务所有者做出决策时与他们进行直接对话，询问他们是基于哪些数据做出这些决策、数据的完整性、是否有足够的数据治理，以及企业将如何使用已开发的模型。

你可以使用直接集成到流程和应用程序的仪表盘来推动决策，但要注意，数据可能会形成先入为主的概念。相反，我们应该尝试去寻找那些真正影响基础决策的可能性：

“我们应该如何定位产品，以最低的成本实现最佳的可用性?”

“哪些方面最有助于对特定客户进行交叉销售或增销?”

“哪些团队表现最好?哪些团队表现最差?“

“如何在 y 的约束下通过优化 x 来削减供应链的成本?”

重视每个决定。更快地制定决策并提高效率可以规避成本、节省成本或创造额外收入。可以使用 CFO 倡导的任何方法和术语来表达这一价值。

确定决策的优先级。这个过程创建了一个决策组合，可以作为数据科学待办项的基础。通过评估成功的可能性、实现的简易程度和价值的多少(基于上表中的评分指标)来确定待办项的优先级。我们已经开发了一个框架(https://ibm.biz/DecisionPortfolio)，可以通过完成这个练习为组合内容安排优先级。

离散的交付。接下来，做出最重要的决定，并将其分解为可管理的块，并在小的 sprint 中完成这些块任务。先确定最小可行产品(MVP)，然后继续迭代。可以考虑每三周一个 sprint，在两个 sprint 后就可以开始交付价值(无论多小)。

实施数据科学计划

要让数据从研究项目变成公司业务的组成部分，需要实施数据科学计划。除了组建团队和制定策略之外，还需要将模型集成到流程、应用程序和仪表盘中，还要计划对模型进行持续监控和再训练。

真正的模型集成意味着我们不能像部署 csv 文件或普通代码那样部署模型。它们应该更像是可重用且可信赖的服务：版本化的 RESTful API，可以直接从数据科学平台获得输出。将模型作为 csv 文件进行部署会切断与整个流程的连接，并且无法获得来自实现方的反馈。将 R 或 Python 代码交给开发团队，让他们将其转换成 API，这种效率是最低的，但这也是在为后续做准备工作。建立一个健壮的流程通常需要三到六个月，还需要建立反馈循环，以便让团队可以轻松地重新训练和部署模型。

将预测性或规范性分析应用到业务中必然会要求你基于反馈重新训练模型，以便跟上变化的节奏。我们已经看到了一些例子，为了驱动一个决策，一个团队在一年内开发了一百多个模型，但在第二年却什么也没有开发出来，因为这个团队现在完全专注于监控和再训练现有的模型。关键是要认识到，这不是他们的方法出了问题，他们确实需要构建那么多模型来解决问题。问题在于，在模型部署的过程中，他们没有对这些模型的监控和再训练进行自动化。

除非你已经经历过大量的数据科学项目，否则实施数据科学的挑战可能会让你大吃一惊——它们都是真实存在的。

衍生数据产品。我们经常会忽略这样的一个事实，即我们的工程特征本身就是有价值的数据。作为建模和工程的一部分，应该考虑将这些新数据部署为 API，并将它们集成到适当的数据资产中，而不是让它们保持私有。例如，如果数据科学团队设计了一个可以组合客户数据、产品数据和财务数据的功能，那么就将这个功能部署为 API，并让相应的模型调用该 API。

应对文化冲击

对于众多企业来说，数据科学之所以可能成为骗局有很多原因，其中有一个原因尤为突出：文化抵制。要突破管理层的阻力，要注意那些有兴趣参与的人。一旦他们开始在流程和应用程序中应用数据和模型，或许支持者就会超过阻碍者。到了某些时候，管理层会问他们已经有了哪些突破，这时阻碍者就会感到压力，然后改变他们的立场。你向管理层展示的价值往往就是通过规避成本、节省资金或创造新价值来超越其他人。

个人贡献者可能会出于其他原因抵制这种转变。他们可能担心会被机器取代，或者创建者不完全了解整个过程或环境。这两种担忧都是实实在在的。但是，在大多数情况下，自动化不会让人失业，只是让工作变得更安全或更有效率，所以要帮助团队认识到这一点。对于另一个担忧(数据科学团队并不真正了解他们所做的事情)，可以考虑让其中一个人承担产品所有者或主题专家的角色，这让其他抵制者感觉到支持者是“我们当中的一员”。当他恢复到正常的角色时，你就有了当前数据科学方法以及未来实现和部署的支持者。

最后，你可以通过大众的力量来应对文化冲击。确定一个场景，并组织一个由高层赞助的黑客马拉松。黑客马拉松应该包括有关机器学习、云计算和 API 的基本演示和高级对话。让团队亲自操刀，并允许公司里的个人参加，不管他们接受过何种培训或拥有何种背景。

为了将数据科学的炼金术转化为真金，企业必须让数据科学为业务带来有形的价值。他们不能只专注于实验，而是将数据科学作为业务模式的组成部分，并与公司的优先事项保持一致。如果你遵循上述的方法，乐章将再次奏响，资金将继续流动，数据科学将不会成为一场骗局。

作者 | Seth Dobrin

英文原文：https://www.datasciencecentral.com/profiles/blogs/don-t-let-data-science-become-a-scam