行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 数据标注 > 正文

机器学习中的7种数据偏见

机器学习中的数据偏差是一种错误,其中数据集的某些元素比其他元素具有更大的权重和/或表示。有偏见的数据集不能准确地表示模型的用例,从而导致结果偏斜,准确性水平低和分析错误。

通常,用于机器学习项目的训练数据必须代表现实世界。这很重要,因为这些数据是机器学习如何完成其​​工作的方式。数据偏差可能发生在从人类报告和选择偏差到算法和解释偏差的许多领域。下图是仅在数据收集和注释阶段可能出现的各种偏差的一个很好的示例。

人为的数据偏见(摘自《人工智能的愿景和语言》中的偏见。更多信息和链接如下。)

解决机器学习项目中的数据偏差意味着首先确定它在哪里。只有在知道存在偏见的地方后,您才可以采取必要的措施来纠正它,无论是解决数据不足还是改善注释过程的问题。考虑到这一点,请务必对数据的范围,质量和处理保持警惕,以免产生偏差。这不仅影响模型的准确性,而且还会涉及道德,公平和包容性问题。

下面,我们列出了机器学习中最常见的7种数据偏见类型,以帮助您分析和理解其发生的位置以及您可以采取的措施。

而且,如果您正在寻找有关机器学习项目的数据收集数据标签的深入信息,请务必查看我们的深入指南,以 

 

数据偏差类型:

尽管并不详尽,但该列表包含了该领域中数据偏见的常见示例,以及其发生位置的示例。

样本偏差:当数据集不能反映模型将在其中运行的环境的实际情况时,就会发生样本偏差。这样的一个例子是某些主要在白人图像上训练的面部识别系统。这些模型对妇女和不同种族的人的准确度要低得多。此偏差的另一个名称是选择偏差。

排除偏差:排除偏差在数据预处理阶段最常见。通常,这是删除不重要的有价值数据的情况。但是,由于某些信息的系统排除,它也可能发生。例如,假设您有一个在美国和加拿大的客户销售数据集。98%的客户来自美国,因此您选择删除不相关的位置数据。但是,这意味着您的模型将不会因您的加拿大客户花费两倍以上的事实而动摇。

测量偏差:当为训练而收集的数据不同于现实世界中收集的数据时,或者当错误的测量结果导致数据失真时,就会发生这种类型的偏差。这种偏差的一个很好的例子出现在图像识别数据集中,其中训练数据是用一种类型的照相机收集的,而生产数据是用另一种照相机收集的。在项目的数据标记阶段,由于注释不一致也会导致测量偏差。

召回偏差:这是一种测量偏差,在项目的数据标记阶段很常见。当您不一致地标记相似类型的数据时,就会产生召回偏差。这导致较低的精度。例如,假设您有一个团队将电话图像标记为损坏,部分损坏或未损坏。如果有人将一张图像标记为已损坏,但将相似的图像标记为部分已损坏,则您的数据将不一致。

观察者偏差:也称为确认偏差,观察者偏差是看到您期望在数据中看到或想要看到的结果的效果。当研究人员在有意识或无意识的情况下对自己的研究有主观想法进入项目时,可能会发生这种情况。当贴标商让他们的主观思想控制他们的贴标习惯,从而导致数据不准确时,我们也可以看到这一点。

种族偏见:尽管不是传统意义上的数据偏见,但由于其在AI技术中的盛行,因此仍然值得一提。当数据偏向特定人群时,就会发生种族偏见。在面部识别和自动语音识别技术中可以看到这一点,该技术无法像白种人那样准确地识别有色人种。Google的Inclusive Images竞赛包括如何发生这种情况的好例子。

关联偏差:当机器学习模型的数据加强和/或乘以文化偏差时,就会发生这种偏差。您的数据集可能包含一组工作,其中所有男人都是医生,所有女人都是护士。这并不意味着女性不能成为医生,男性不能成为护士。但是,就您的机器学习模型而言,不存在女医生和男护士。社交偏见最出名的是造成性别偏见,这在“ 挖掘人工智能”研究中可见

如何避免机器学习项目中的数据偏差?

防止机器学习项目中的数据偏差是一个持续的过程。尽管有时很难知道数据或模型何时出现偏差,但您可以采取许多步骤来帮助防止偏差或及早发现偏差。尽管远非完整列表,但以下要点为思考机器学习项目的数据偏差提供了入门级指南。

  • 尽您所能,事先研究用户。请注意您的一般用例和潜在异常值。
  • 确保您的数据科学家和数据标签团队是多元化的。
  • 尽可能合并来自多个来源的输入以确保数据多样性。
  • 为数据标签创建黄金标准。黄金标准是一组数据,可以反映任务的理想标记数据。它使您能够测量团队注释的准确性。
  • 为数据标签期望制定明确的准则,以便数据标签保持一致。
  • 对于数据准确性可能容易产生偏差的任何项目,请使用多遍注释。这样的示例包括情绪分析,内容审核和意图识别。
  • 寻求具有领域专业知识的人员的帮助,以查看您收集和/或注释的数据。团队外部的人可能会看到团队忽略的偏见。
  • 定期分析您的数据。跟踪错误和问题区域,以便您快速响应并解决它们。在决定删除或保留它们之前,请仔细分析数据点。
  • 使偏差测试成为开发周期的一部分。GoogleIBMMicrosoft已发布了所有工具和指南,以帮助分析许多不同数据类型的偏倚。

 

 

在结束时

重要的是要意识到任何数据项目在机器学习中的潜在偏见。通过尽早安装正确的系统并保持数据收集,标记和实施的最顶层,您可以在出现问题之前就注意到它,或者在出现问题时对其进行响应。

另外,如果您要组建一支由不同的数据科学家和数据标签人员组成的团队以确保高质量的数据,请联系Lionbridge可以访问各个领域的领先数据科学家,并拥有超过100万名贡献者的全球社区,可以帮助您定义,收集和准备机器学习项目所需的数据。

微信公众号

声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
SEM推广服务

Copyright©2005-2026 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注行业联盟

扫码入群
扫码关注

微信公众号

返回顶部