大数据学习之核心技术

技术的体系庞大且复杂，基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。通用化的大数据处理框架，主要分为下面几个方面：大数据采集与预处理、大数据存储、大数据清洗、大数据查询分析和大数据可视化。

自动化大数据

一、大数据采集

大数据采集，即对各种来源的结构化和非结构化海量数据，所进行的采集。

数据库采集：流行的有Sqoop和ETL，传统的关系型数据库MySQL和Oracle 也依然充当着许多企业的数据存储方式。当然了，目前对于开源的Kettle和Talend本身，也集成了大数据集成内容，可实现hdfs，hbase和主流Nosq数据库之间的数据同步和集成。

网络数据采集：一种借助网络爬虫或网站公开API，从网页获取非结构化或半结构化数据，并将其统一结构化为本地数据的数据采集方式。

文件采集：包括实时文件采集和处理技术flume、基于ELK的日志采集和增量采集等等。

二、大数据预处理

大数据预处理，指的是在进行数据分析之前，先对采集到的原始数据所进行的诸如“清洗、填补、平滑、合并、规格化、一致性检验”等一系列操作，旨在提高数据质量，为后期分析工作奠定基础。数据预处理主要包括四个部分：数据清理、数据集成、数据转换、数据规约。

三、大数据储存

大数据每年都在激增庞大的信息量,加上已有的历史数据信息,对整个业界的数据存储、处理带来了很大的机遇与挑战.为了满足快速增长的存储需求,云存储需要具备高扩展性、高可靠性、高可用性、低成本、自动容错和去中心化等特点.常见的云存储形式可以分为分布式文件系统和分布式数据库。其中,分布式文件系统采用大规模的分布式存储节点来满足存储大量文件的需求,而分布式的NoSQL数据库则为大规模非结构化数据的处理和分析提供支持。

四、大数据清洗

MapReduce作为Hadoop的查询引擎，用于大规模数据集的并行计算，”Map（映射）”和”Reduce（归约）”，是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统中。随着业务数据量的增多，需要进行训练和清洗的数据会变得越来越复杂，这个时候就需要任务调度系统，比如oozie或者azkaban，对关键任务进行调度和监控。

五、大数据查询分析

Hive的核心工作就是把SQL语句翻译成MR程序，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能。Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce。可以将Hive理解为一个客户端工具，将SQL操作转换为相应的MapReduce jobs，然后在hadoop上面运行。Hive支持标准的SQL语法，免去了用户编写MapReduce程序的过程，它的出现可以让那些精通SQL技能、但是不熟悉MapReduce 、编程能力较弱与不擅长Java语言的用户能够在HDFS大规模数据集上很方便地利用SQL 语言查询、汇总、分析数据。

六、大数据可视化

大规模数据的可视化主要是基于并行算法设计的技术，合理利用有限的计算资源，高效地处理和分析特定数据集的特性。通常情况下，大规模数据可视化的技术会结合多分辨率表示等方法，以获得足够的互动性能。在科学大规模数据的并行可视化工作中，主要涉及数据流线化、任务并行化、管道并行化和数据并行化4 种基本技术。

综上，就是大数据核心技术的一部分的简介，想要了解他们具体功能和用处，还需要自己多下功夫，深入了解。