如何开始使用大数据

首先需要了解Java语言和Linux操作系统,这是学习大数据的基础,学习的顺序没有先后。

大数据

Java:只要懂一些基础,做大数据不需要很深的Java技术。学习java SE相当于学习大数据。

Linux:因为大数据相关的软件运行在Linux上,所以要把Linux学扎实。学好Linux对你快速掌握大数据相关技术有很大的帮助,能让你更好的了解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置。,让你少踩很多坑,学会理解脚本,让你更容易理解和配置大数据集群。它还可以让您在未来更快地学习新的大数据技术。

Hadoop:这是一个流行的大数据处理平台,几乎成了大数据的代名词,所以这是必须的。Hadoop包括几个组件:HDFS、MapReduce和YARN。HDFS是存储数据的地方,就像我们电脑的硬盘一样。MapReduce处理和计算数据。它有一个特点就是只要给定时间就可以运行所有的数据,但是时间可能不会很快,所以叫数据批处理。

动物园管理员:这是灵丹妙药。安装Hadoop的HA时会用到,以后的Hbase也会用到。一般用来存储一些合作信息,比较小,一般不超过1M。所有使用它的软件都依赖于它。对于我们个人来说,只需要正确安装,让它正常运行就可以了。

Mysql:我们已经学完了大数据的处理,接下来还要学习小数据的处理工具mysql数据库,因为后面安装hive的时候会用到。mysql需要掌握什么水平?您可以在Linux上安装它,运行它,配置简单的权限,修改root的密码,并创建一个数据库。这里主要是学习SQL的语法,因为hive的语法和这个很像。

Sqoop:用于将数据从Mysql导入Hadoop。当然,你也可以将Mysql数据表直接导出到一个文件中,放在HDFS上,不用这个。当然,你要注意Mysql在生产环境下使用的压力。

Hive:这个东西是懂SQL语法的人的神器。它可以让你轻松处理大数据,你也不用费劲去写MapReduce程序了。有人说猪?简直像猪一样。掌握一个就好。

Oozie:既然你已经学会了Hive,我肯定你需要这个东西。它可以帮助你管理你的Hive或者MapReduce和Spark脚本,检查你的程序是否正确执行,如果出现问题会给你报警,帮助你重试程序,最重要的是,帮助你配置任务依赖。我相信你会喜欢的,不然你看着那一堆脚本和密密麻麻的crond就觉得自己是狗屎。

Hbase:这是Hadoop生态系统中的NOSQL数据库。它的数据以键和值的形式存储,键是唯一的,所以可以用来复制数据。与MYSQL相比,它可以存储更多的数据。因此,它通常用于大数据处理完成后的存储目的地。

卡夫卡:这是一个很好的排队工具。排队是为了什么?排队买票知道吗?如果数据太多,还需要排队处理,这样其他和你合作的同学就不会尖叫了。你为什么给我这么多数据(例如,数百千兆字节的文件)?我该怎么处理?不要因为他不处理大数据而责怪他。你可以告诉他,我把数据放在队列里,你用的时候一个一个拿,这样他就不会抱怨了,马上优化他的程序,因为不处理是他的事。不是你问的问题。当然,我们也可以用这个工具把在线实时数据存入存储器或HDFS。这时候可以配合一个叫Flume的工具,专门用来提供简单的数据处理,写给各种数据接收者(比如卡夫卡)。

Spark:用来弥补基于MapReduce的数据处理速度的不足。它的特点是将数据加载到内存中进行计算,而不是读取一个慢到死,进化特别慢的硬盘。特别适合迭代运算,所以算法流特别稀饭。它是用scala写的。Java语言或者Scala都可以操作,因为都用JVM。