行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 数据挖掘 > 正文

大数据和「数据挖掘」是何关系?

问:大数据是最近两年提出的,而数据挖掘上世纪就提出来了。我想知道的是,现在大数据的背景下,采用的数据挖掘算法跟之前传统的数据挖掘算法有什么本质上的不同?如果没有不同,那又是什么关系呢?

A:之前一度盛传大数据是用来忽悠人的,但现在应该改观了很多人的想法。

大数据不是数据挖掘的延伸,也没有相似度。稚嫩恶搞说重合度很高,大数据干的就是数据挖掘的事。数据挖掘之前叫KDD(Knowledge Discovery and Data Mining, 或者也可以是 Knowledge Discovery in Database)。数据挖掘就是从海量的数据中发现隐含的知识和规律。那么说,这个东西是啥时候提出来的?上个世纪。而大数据是个很新的东西,在很大程度上大数据就是数据挖掘的新名字。

大数据在容量(Volume),速率(Velocity)和种类(Variety)三个方面都有相关定义,而数据挖掘(Data mining)简单的说,则是一个从未经处理过的数据中提取信息的过程,重点是找到相关性和模式分析。大数据和数据挖掘的相似处或者关联在于: 数据挖掘的未来不再是针对少量或是样本化,随机化的精准数据,而是海量,混杂的大数据。

数据挖掘就是从海量的数据中发现隐含的知识和规律。所以数据挖掘的前提和大数据的前提是一样的,就是海量数据。所以就方法而言,二者是很类似的。

我们现在总是提的大数据,我认为主要是一种思路:

1.不使用抽样的数据,而采用全部的数据:这里我指的全部的数据是完全所有的数据,包括正确的和不正确的数据都要采用。噪声和错误数据同样包含着有用的信息。

2.不关心为什么,只关心是什么:因为我们有了海量的数据 ,因此我们通过大数据统计出的结果应该是具有相当程度的普适性的。所以把这种现象-结果拿去套就行了。如果探究和证明因果关系的话,通常是极为困难的。一个例子就是经典的啤酒和尿布,从数据中获得这种结果很简单,把它们放在一起就能增加销量从而达到沃尔玛的目的,而去查明原因则费事的多。

3.相比数据分析方法而言更注重数据获取:换一种说法就是数据为先。因为现在计算机太牛逼了,所以只要我们想到办法,它就能替我们干相应的活。基于此,我们要做的就是获取更多的,更全面的数据来让计算机分析。例如国外快递公司在车上装传感器来帮助快递调度,劳斯莱斯公司在飞机发动机上装传感器并通过历史数据和实时数据预先预测潜在故障并提前检修的例子。大数据思维模式中,数据为我们提供最多的可能和最大的价值,所以着重获取数据。

B:算法角度去看,没有本质差别。

工程角度上看是有较大不同。举例来说,余弦距离计算商城各物品两两间相似度,服务于线上推荐模块使用。如果商品总量几千个直接计算就行。倘若商品总量几千万,就算算法逻辑完全相同,实现逻辑也要做成分布式,不然基本算不完。

数据挖掘基于数据库理论,机器学习,人工智能,现代统计学的迅速发展的交叉学科,在很多领域中都有应用。涉及到很多的算法,源于机器学习的神经网络,决策树,也有基于统计学习理论的支持向量机,分类回归树,和关联分析的诸多算法。数据挖掘的定义是从海量数据中找到有意义的模式或知识。

大数据是最近提出来,有三个重要的特征:数据量大,结构复杂,数据更新速度很快。由于Web技术的发展,web用户产生的数据自动保存、传感器也在不断收集数据,以及移动互联网的发展,数据自动收集、存储的速度在加快,全世界的数据量在不断膨胀,数据的存储和计算超出了单个计算机(小型机和大型机)的能力,这给数据挖掘技术的实施提出了挑战(一般而言,数据挖掘的实施基于一台小型机或大型机,也可以进行并行计算)。Google提出了分布式存储文件系统,发展出后来的云存储和云计算的概念。 大数据需要映射为小的单元进行计算,再对所有的结果进行整合,就是所谓的map-reduce算法框架。

在单个计算机上进行的计算仍然需要采用一些数据挖掘技术,区别是原先的一些数据挖掘技术不一定能方便地嵌入到 map-reduce 框架中,有些算法需要调整。 此外,大数据处理能力的提升也对统计学提出了新的挑战。统计学理论往往建立在样本上,而在大数据时代,可能得到的是总体,而不再是总体的不放回抽样。

微信公众号

声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
最新文章
SEM推广服务
热门文章
热点图文

Copyright©2005-2026 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注行业联盟

扫码入群
扫码关注

微信公众号

返回顶部