发布于 2015-06-16 00:31:30 | 147 次阅读 | 评论: 0 | 来源: 网友投递
Apache Spark
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
6月15日消息,IBM今日宣布了一系列Apache Spark开源软件相关的措施,旨在更好地存储、处理以及分析大量不同类型的数据。
Spark是由加州大学伯克利分校开发的一个框架,通过将信息保存至计算机的快速存储模块,帮助企业迅速处理大量数据,硅谷许多公司目前将Spark视为替代Hadoop的选择之一。
IBM将在旧金山开设一家Spark技术中心。这一举措,IBM认为将直接教会3500名研发人员使用Spark来工作,并间接影响超过一百万的数据科学家和工程师,让他们更加熟悉Spark。另外,IBM还希望能将Spark应用于他们的BlueMix云平台。
相对于IBM对Spark的大胆采纳,其他一些技术厂商对于Spark则是持相当保留的态度。IBM近年来将战略重点转向数据领域,在大数据、物联网、软件定义存储及Watson系统等领域投入大量资金。
IBM在Spark开源软件方面的举动将会对许多以Spark为框架协议的初创公司带来利好,最重要的是会使业界对Spark开源软件的接受度和应用率增加。因为Spark开源软件不仅对初创公司有利,对于一些大的数据项目来说,它也是非常好的解决方案。
不过,Gartner分析师Nick Heudecker表示,现在许多大公司仍然拒绝采用Spark,他希望IBM此举能带来改变。