Hadoop版本历史

说到大数据处理,相信很多人第一时间想到的是Hadoop MapReduce。是的,Hadoop MapReduce奠定了大数据处理技术的基础。近年来,随着Spark的发展,越来越多的声音提到Spark。Spark相比Hadoop MapReduce有哪些优势?

Spark和Hadoop MapReduce业内有两种意见:一是Spark将取代Hadoop MapReduce,成为未来大数据处理的发展方向;第二,Spark将与Hadoop结合,形成更大的生态系统。其实Spark和Hadoop MapReduce的关键应用是不一样的。相对于Hadoop MapReduce,Spark感觉有点“照在你身上”。Spark是在Hadoop MapReduce模型上开发的,我们可以在其中清晰的看到MapReduce的影子。所有的火花都不是从零开始创新,而是站在巨人“MapReduce”的肩膀上。我们暂且抛开争议,看看Spark相比Hadoop MapReduce有哪些优势。

1,计算速度快

大数据处理首先追求的是速度。Spark有多快?用官方的话说就是“Spark让Hadoop集群中的应用在内存中运行的速度达到100倍,即使在磁盘上也快了10倍”。有些读者看到这里可能会印象深刻。的确,在迭代计算领域,Spark的计算速度远远快于MapReduce,迭代次数越多,Spark的优势越明显。这是因为Spark很好的利用了当前服务器内存越来越大的优势,通过减少磁盘I/O来实现性能提升..他们把所有的中间处理数据都放在内存里,只在需要的时候才批量存储在硬盘里。也许读者会问:如果应用特别大,内存能装多少GB?回答:什么?GB?目前IBM服务器的内存已经扩展到了几TB。

2、应用灵活易用。

你知道AMPLab的Lester为什么放弃MapReduce吗?因为他需要把大量的精力放在Map和Reduce的编程模型上,极其不方便。除了简单的Map和Reduce操作,Spark还支持SQL查询、流查询和复杂查询,比如开箱即用的机器学习算法。同时,用户可以在同一个工作流程中无缝匹配这些能力,应用非常灵活。

Spark核心代码是63个Scala文件,非常轻量级。并且允许Java、Scala、Python开发者在他们熟悉的语言环境下工作,通过建立Java、Scala、Python、SQL(处理交互查询)来方便各行各业的使用,同时还包括大量开箱即用的机器学习库。它附带了80多个高级操作符,允许在Shell中进行交互式查询。即使是新手也可以轻松使用该应用程序。

3.与竞争对手兼容

Spark可以独立运行。除了当前的YARN集群管理,它还可以读取任何现有的Hadoop数据。它可以运行在任何Hadoop数据源上,比如HBase、HDFS等等。有了这个功能,想要从Hadoop应用迁移到Spark的用户就方便多了。Spark有兼容竞争对手的心思,何必担心大事?

4、实时处理性能非凡。

MapReduce更适合处理离线数据(当然Hadoop也可以在YARN之后使用其他工具进行流式计算)。Spark很好地支持实时流计算,依靠Spark流实时处理数据。Spark Streaming有一个强大的API,允许用户快速开发流应用程序。与Storm等其他流媒体解决方案不同,Spark Streaming无需额外的代码和配置即可完成大量恢复和交付工作。

5.社区做出了巨大的贡献。

从Spark的版本演变来看,足以说明这个平台的蓬勃生命力和社群的活跃度。尤其是2013以来,Spark一度进入快速发展期,代码库提交和社区活跃度大幅增长。从活跃度来看,Spark在所有Apache Foundation开源项目中排名前三。相对于其他大数据平台或框架,Spark的代码库是最活跃的。

Spark非常重视社团活动,组织极其规范。定期或不定期召开星火相关会议。会议分两种:一种是星火峰会,影响力很大,可谓是全球星火顶尖技术人员的峰会。目前在旧金山已经连续举办了三届峰会,从2013到2065 438+05;另一种是星火社区不定期在世界各地举办的小型Meetup活动。Spark Meetup也会定期在国内一些大城市举办,如北上广深、Xi安等地。读者可以关注当地微信微信官方账号参与。

Spark的适用场景

从大数据处理需求来看,大数据服务大致可以分为以下三类:

(1)复杂的批量数据处理,通常时间跨度在几十分钟到几个小时之间。

(2)基于历史数据的交互式查询通常需要几十秒到几分钟。

(3)基于实时数据流的数据处理通常需要几百毫秒到几秒。

目前有很多相对成熟的开源和商业软件来处理上述三种场景:第一种业务可以使用MapReduce处理批量数据;第二个业务,可以用Impala进行交互查询;对于第三种流数据处理,我们可以想到一个专业的流数据处理工具Storm。但是,这里有一个很重要的问题:对于大多数互联网公司来说,上述三种场景通常是同时遇到的。如果用不同的处理技术来面对这三个场景,这三个场景的输入/输出数据无法无缝共享,相互之间可能需要进行格式转换,而且每个开源软件都需要一个开发和维护团队,从而增加了成本。另一个不便之处是很难协调同一集群中每个系统的资源分配。

那么,有没有一款软件可以同时处理以上三种场景呢?火花可以,或者说有这样的潜力。Spark支持复杂的批处理、互操作性和流计算,兼容HDFS和亚马逊S3等分布式文件系统,可以部署在YARN和Mesos等流行的集群资源管理器上。

从Spark的设计理念(基于内存的迭代计算框架)出发,最适合有迭代操作或者需要多次操作特定数据集的应用。而且迭代次数越多,读取的数据量越大,Spark的应用效果越明显。所以对于机器学习等“迭代”应用,Spark可谓是一部好戏,比Hadoop MapReduce快几十倍。此外,Spark Streaming由于具有将中间数据存储在内存中的特性,处理速度非常快,还可以应用于需要实时处理大数据的场合。

当然,Spark也有一些不适用的场合。对于异步细粒度更新状态的应用,如Web服务或增量式Web爬虫和索引的存储,不适合增量式修改的应用模型。Spark也不适合处理超大数据量。这里说的“超大”是相对于这个集群的内存容量而言的,因为Spark要在内存中存储数据。一般来说,10TB(单次分析)以上的数据可以算是“超大”数据。

一般来说,对于中小企业的数据中心,在一次计算的数据量不大的情况下,Spark是一个不错的选择。另外,Spark并不适合混合云计算平台,因为混合云计算平台的网络传输是个大问题,即使有专用的宽带在云集群和本地集群之间传输数据,相比内存读取速度还是不够。