简单来说什么是火花?

基于内存的Spark是云计算领域继Hadoop之后最流行、最通用的下一代并行计算框架开源项目,尤其支持交互查询、流计算、图计算等。

Spark在机器学习方面有着无可比拟的优势,特别适合需要多次迭代的算法。同时,Spark具有优秀的容错和调度机制,保证系统的稳定运行。Spark目前的开发理念是通过一个计算框架将SQL、机器学习、图计算、流计算等功能整合到一个项目中,非常好用。

目前,SPARK已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等,是Apache的顶级项目。可以预计,2014下半年,社区和商业应用将出现爆发式增长。

国内淘宝,优酷土豆等。已经在自己的商业生产系统中使用了Spark技术,在国内外的应用也越来越广泛。国外一些大型互联网公司已经部署了Spark。即使是早期Hadoop的主要贡献者雅虎,也在许多项目中部署了Spark。在国内,我们在运营商、电商等传统行业部署了Spark。

百度百科门户:/链接?URL = shmvm 5 dfonr 5 uevxvs 953 fzvzl 9 lkuhssdzqryojwqclpqv 3k 74 letcpi-wfvgur 2 f 9 I 4 fyfnebylkt 1y 7 OCC vt 4 jn 2 _ jzlyizyjfsz 1e