机器学习中的7种数据偏见

机器学习中的数据偏差是一种错误，其中数据集的某些元素比其他元素具有更大的权重和/或表示。有偏见的数据集不能准确地表示模型的用例，从而导致结果偏斜，准确性水平低和分析错误。

通常，用于机器学习项目的训练数据必须代表现实世界。这很重要，因为这些数据是机器学习如何完成其工作的方式。数据偏差可能发生在从人类报告和选择偏差到算法和解释偏差的许多领域。下图是仅在数据收集和注释阶段可能出现的各种偏差的一个很好的示例。

解决机器学习项目中的数据偏差意味着首先确定它在哪里。只有在知道存在偏见的地方后，您才可以采取必要的措施来纠正它，无论是解决数据不足还是改善注释过程的问题。考虑到这一点，请务必对数据的范围，质量和处理保持警惕，以免产生偏差。这不仅影响模型的准确性，而且还会涉及道德，公平和包容性问题。

下面，我们列出了机器学习中最常见的7种数据偏见类型，以帮助您分析和理解其发生的位置以及您可以采取的措施。

而且，如果您正在寻找有关机器学习项目的数据收集数据标签的深入信息，请务必查看我们的深入指南，以

数据偏差类型：

尽管并不详尽，但该列表包含了该领域中数据偏见的常见示例，以及其发生位置的示例。

样本偏差：当数据集不能反映模型将在其中运行的环境的实际情况时，就会发生样本偏差。这样的一个例子是某些主要在白人图像上训练的面部识别系统。这些模型对妇女和不同种族的人的准确度要低得多。此偏差的另一个名称是选择偏差。

排除偏差：排除偏差在数据预处理阶段最常见。通常，这是删除不重要的有价值数据的情况。但是，由于某些信息的系统排除，它也可能发生。例如，假设您有一个在美国和加拿大的客户销售数据集。98％的客户来自美国，因此您选择删除不相关的位置数据。但是，这意味着您的模型将不会因您的加拿大客户花费两倍以上的事实而动摇。

测量偏差：当为训练而收集的数据不同于现实世界中收集的数据时，或者当错误的测量结果导致数据失真时，就会发生这种类型的偏差。这种偏差的一个很好的例子出现在图像识别数据集中，其中训练数据是用一种类型的照相机收集的，而生产数据是用另一种照相机收集的。在项目的数据标记阶段，由于注释不一致也会导致测量偏差。

召回偏差：这是一种测量偏差，在项目的数据标记阶段很常见。当您不一致地标记相似类型的数据时，就会产生召回偏差。这导致较低的精度。例如，假设您有一个团队将电话图像标记为损坏，部分损坏或未损坏。如果有人将一张图像标记为已损坏，但将相似的图像标记为部分已损坏，则您的数据将不一致。

观察者偏差：也称为确认偏差，观察者偏差是看到您期望在数据中看到或想要看到的结果的效果。当研究人员在有意识或无意识的情况下对自己的研究有主观想法进入项目时，可能会发生这种情况。当贴标商让他们的主观思想控制他们的贴标习惯，从而导致数据不准确时，我们也可以看到这一点。

种族偏见：尽管不是传统意义上的数据偏见，但由于其在AI技术中的盛行，因此仍然值得一提。当数据偏向特定人群时，就会发生种族偏见。在面部识别和自动语音识别技术中可以看到这一点，该技术无法像白种人那样准确地识别有色人种。Google的Inclusive Images竞赛包括如何发生这种情况的好例子。

关联偏差：当机器学习模型的数据加强和/或乘以文化偏差时，就会发生这种偏差。您的数据集可能包含一组工作，其中所有男人都是医生，所有女人都是护士。这并不意味着女性不能成为医生，男性不能成为护士。但是，就您的机器学习模型而言，不存在女医生和男护士。社交偏见最出名的是造成性别偏见，这在“ 挖掘人工智能”研究中可见。