中国大数据的六大技术变革

中国大数据的六大技术变革_数据分析师考试

结合Hadoop中国云计算大会和CSDN大数据技术大会的精髓,往届中国大数据技术大会(BDTC)已经发展成为国内顶级的技术盛会。从2008年的60人Hadoop沙龙到现在的千人技术盛宴,作为行业内极具实用价值的专业交流平台,每一届中国大数据技术大会都忠实描绘了大数据领域的技术热点,沉淀了行业的实践经验,见证了整个大数据生态系统技术的发展和演进。

2014 65438+2月12-14由中国计算机联合会(CCF)主办,CCF大数据专家委员会协办,中国科学院计算研究所和CSDN联合承办的2014中国大数据技术大会(BDTC)。为期三天的大会旨在推动大数据技术在行业应用中的发展,拟设置大数据基础设施、大数据生态系统、大数据技术、大数据应用、大数据互联网金融技术、智能信息处理等多个主题论坛和行业峰会。由中国计算机联合会主办,CCF大数据专家委员会承办,南京大学、复旦大学协办的“第二届CCF大数据学术大会2014”也将同期举行,主题报告将与技术大会分享。

本次大会将邀请近100位国外大数据技术领域的顶级专家和一线从业者,深入探讨Hadoop、YARN、Spark、Tez、HBase、Kafka、OceanBase等开源软件的最新进展,以及NoSQL/NewSQL、内存计算、流计算、图计算技术的发展趋势。OpenStack生态系统对大数据计算需求的思考,以及大数据下的可视化、机器学习/深度学习、商业智能、数据分析等最新行业应用,分享实际生产系统中的技术特点和实践经验。

大会前期特别梳理了历届大会的亮点,记录中国大数据技术领域的发展历程,并基于当前生态形势对即将到来的BDTC 2014进行了展望:

追根溯源,理解大数据的六大技术变革

随着大数据技术大会的发展,我们见证了中国大数据技术和应用时代的到来,也见证了整个大数据生态系统技术的发展和演进:

1.分布式计算资源-从网格计算到云计算。回顾历届BDTC会议不难发现,从2009年开始,资源组织和调度的方式逐渐从跨域网格计算转变为本地云计算。如今,云计算已经成为大数据资源保护的唯一平台。

2.数据存储的变化——HDFS和NoSQL应运而生。随着数据格式的日益多样化,传统的关系存储已经不能满足新时代的应用需求,HDFS、NoSQL等新技术应运而生,成为许多大型应用架构不可或缺的一部分,推动了定制化计算机/服务器的发展,成为大数据生态系统中最热门的技术之一。

3.计算模式变了——Hadoop计算盒子成为主流。为了更好更便宜地支持其搜索服务,谷歌创建了Map/Reduce和GFS。受谷歌论文的启发,前雅虎工程师Doug Cutting创建了一个不同于高性能计算模型的Hadoop软件生态系统,计算接近数据。Hadoop天生高贵,如今已经成为Apache基金会最“火热”的开源项目,也是公认的大数据处理事实上的标准。Hadoop以低成本在分布式环境中提供海量数据处理能力。因此,Hadoop技术讨论和实践分享一直是中国历届大数据技术大会最引人注目的特色之一。

4.引入流计算技术——满足应用程序的低延迟数据处理要求。随着业务需求的扩展,大数据逐渐走出了线下批量处理的范畴。Storm、Kafka等充分发挥实时性、可扩展性、容错性和灵活性的流处理框架,让旧有的消息中间件技术复活了。成为历届BDTC的一道亮丽风景。

5.内存计算初露端倪——新贵Spark敢于挑战老牌。Spark源于美国加州大学伯克利分校AMPLab的集群计算平台。是不可多得的全能选手,基于内存计算,从多次迭代批处理开始,拥抱数据仓库、流处理、图计算等多种计算范式。在短短的四年时间里,Spark已经发展成为Apache Software Foundation的顶级项目,拥有30名专员,用户包括IBM、亚马逊和雅虎!、搜狐、百度、阿里、腾讯等众多知名公司,包括Spark SQL、Spark Streaming、MLlib、GraphX等众多相关项目。毫无疑问,Spark已经站稳了脚跟。

6.关系数据库技术的发展--new SQL改写数据库历史。关系数据库系统的研发并没有停止,在横向扩展、高可用、高性能方面也在不断进步。实际应用最迫切需要MPP(海量并行处理)数据库进行在线分析处理(OLAP),包括MPP数据库学习和采用大数据领域的新技术,如多副本技术、列存储技术等。另一方面,面向联机事务处理(OLTP)的数据库正在向高性能发展,目标是高吞吐量和低延迟。技术发展趋势包括全内存和无锁。

基于帆船,见2014大数据生态圈发展。

时光荏苒,2014中国大数据技术大会如期举行。科技飞速发展,2014我们能从BDTC身上学到什么?在这里我们不妨关注一下当前的技术发展趋势:

1.MapReduce已经走向没落,YARN/Tez能否再创辉煌?对于Hadoop来说,2014是喜庆的一年——EMC、微软、Intel、Teradata、思科等众多巨头都加大了对Hadoop的投入。然而,对于许多组织来说,今年并不容易:由于基于MapReduce的实时缺点以及对更通用的大数据处理平台的需求,Hadoop 2.0转型势在必行。那么,在转型中,组织会遇到什么样的挑战?组织如何更好地利用YARN带来的新特性?Hadoop未来的发展会有哪些重大变化?为此,BDTC 2014特别邀请了Apache Hadoop委员会、Apache Hadoop项目管理委员会(PMC)成员Uma Maheswara Rao G、Apache Hadoop委员刘一、Bikas Saha(Apache Hadoop和Tez成员PMC)等国际顶级Hadoop专家,我们不妨面对面探讨一下。

2.时过境迁,Storm、Kafka等流计算框架的未来不确定。如果说MapReduce的慢给很多流式计算框架带来了机会,那么当Hadoop生态系统组件越来越成熟,Spark变得更容易使用的时候,会有什么来满足这些流式计算框架呢?在此,我们不妨借鉴一下BDTC 2014近百场比赛的练习分享,或者与专家面对面交流。

3.火花,是颠覆还是补充?与Hadoop生态系统的兼容使得Spark的发展日新月异。但根据Sort Benchmark近日发布的排序结果,在海量(100TB)离线数据的排序中,与上届冠军Hadoop相比,Spark用不到十分之一的机器和仅三分之一的时间完成了相同数据量的排序。毫无疑问,目前的Spark并没有止步于实时计算,目标直指通用大数据处理平台。不过,结束Sharp,开始Spark SQL可能已经初具规模了。那么,当Spark更加成熟,更加原生地支持离线计算的时候,谁将获得开源大数据标准处理平台的荣誉?在这里我们一起期待。

4.基础设施层,将使用什么来升级我们的网络?如今,网络已经成为许多大数据处理平台的目标。例如,为了克服网络瓶颈,Spark用新的基于Netty的网络模块替换了原来的NIO网络模块,从而提高了网络带宽的利用率。那么,如何在基础设施层面克服网络的瓶颈呢?直接使用更高效的网络设备,比如Infiniband,可以实现多大的性能提升?构建更加智能网络,通过每个计算阶段自适应调整拆分/合并阶段的数据传输需求,不仅提高了速度,也提高了利用率。在BDTC 2014,我们可以从Infiniband/RDMA技术和应用讲座,以及几次SDN战役中学习到宝贵的经验。

5.数据挖掘的灵魂-机器学习。近年来,机器学习领域的人才争夺战变得激烈,像Google、IBM、微软、百度、阿里、腾讯等公司在机器学习领域的投入越来越多,包括芯片设计、系统架构(异构计算)、软件系统、模型算法和深度应用。大数据标志着一个新时代的到来。PB数据让人坐拥金山。然而,没有智能算法这个机器学习的灵魂,价值的提取无疑成为了泡影。在这一环节中,我们还为大家准备了几场机器学习相关的分享会,等待您的参与。

除了技术分享,2014第二届CCF大数据学术大会也将同期举行,主题报告将与技术大会分享。届时,我们还可以从学术领域获得许多最新的科研成果。

以上是边肖为大家分享的关于中国大数据六大技术变革的相关内容。更多信息可以关注环球常春藤分享更多干货。