Spark 2.0 时代全面到来 —— 2.0.1 版本发布

发布于 2016-10-08 01:22:42 | 188 次阅读 | 评论: 0 | 来源: 网友投递

Apache Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

距离Spark 2.0.0发布两个月后，Spark 2.0.1版本发布了，这是一个修正版本，共处理了300多个Issue，涉及spark稳定性和bug等方面的修复，它的发布意味着Spark 2.0接近生产环境使用要求，想要尝试Spark 2.0的可以动手了。

Apache Spark 2.0是基于spark branch-2.x 开发的，相比于branch-1.0，它在功能和性能等方面均有巨大改进。在性能方面，Spark 2.x 有2~10倍的提升；在功能方面，Spark SQL中的Dataset变得成熟，Spark 2.x通过Dataset重构了Spark Streaming和MLlib的API，进而使得这两个系统在易用性和性能方面有重大提升，在不久的将来，Dataframe/Dataset API（high-level API）将取代RDD API（low-level API），成为主流的Spark编程接口。

Apache Spark 2.x在性能和功能方面的改进主要包括：

1. 性能方面

相比于Spark 1.0，Spark 2.0在引擎性能方面有重大优化，其优化主要体现在Spark Core和Spark SQL两个系统上，其优化主要得益于Tungsten计划（“钨丝计划”），其主要动机是优化Spark内存和CPU的使用，使其能够逼近物理机器的性能极限。

利用“整阶段代码生成”（“whole stage code generation”），使得SQL和DataFrame中算子性能优化2-10倍
通过“向量化计算”提升Parquet格式文件的扫描吞吐率
提升ORC格式文件的读写性能
提升Catalyst查询优化器性能

2. 功能方面

（1）Spark Core/SQL:Tungsten Phase 2，优化CPU与Memory方面

“钨丝计划”完成第二阶段任务，在内存和CPU使用方面进一步优化Spark引擎性能，重构了大量数据结构和算法的实现，使得Dataframe/Dataset性能得到显著提升，这使得Dataframe/Dataset有能力成为其他几个系统（比如Spark Streaming和MLlib）的基础API。

注：“钨丝计划”包括三个方面的优化：

Memory Management and Binary Processing： Java GC严重，且java对象内存开销大，可采用类似C语言机制，直接操纵binary data（sun.misc.Unsafe）
Cache-aware Computation：合理使用CPU的L1/L2/L3 cache，设计对cache友好的算法
Code Generation：可去除条件检查，减少虚函数调度等

（2）Spark SQL: 统一DataFrame与Dataset API

众所周知，在Spark 1.x中，DataFrame API存在很多问题，包括不是类型安全的(not type-safe)，缺乏函数式编程能力（not object-oriented）等，为了克服这些问题，社区引入了Dataset，相比于DataFrame，它具有以下几个特点：类型安全，面向对象编程方式；支持非结构化数据（json）；java与scala统一接口和性能极好的序列化框架等，她将成为Spark未来主流的编程接口（RDD API是low-level API，而Dataset则是high-level API）。

（3）Spark SQL：支持SQL 2003

Spark SQL在通用性方面有重大突破，它跑通了所有（99个）TPC-DS查询，并有以下几个改进：

解析器可同时支持ANSI-SQL 和Hive QL
实现了DDL
支持大部分子查询
支持View

（4）Spark Streaming：引入Structured Streaming

Spark Streaming基于Spark SQL（DataFrame / Dataset ）构建了high-level API，使得Spark Streaming充分受益Spark SQL的易用性和性能提升。Spark Streaming重构的API主要是面向结构化数据的，被称为“Structured Streaming”，其主要特性包括：

DataFrame / Dataset API的支持
提供了Event time, windowing, sessions, sources & sink等API
连接流式数据与静态数据集
交互式查询结果：通过JDBC server将RDD结果暴露出去，以便于交互式查询

（5）Spark MLlib: MLlib 2.0诞生

Spark MLlib朝着2.0进化，主要体现在机器学习模型的多样化，持久化和定制化上，具体包括：

广义线性模型的全面实现
Python & R API的支持
增强模型持久化能力
Pipieline定制化

Apache Spark 2.0在功能和性能的重大改进，使得它在分布式计算领域进一步巩固了自己的地位，随着Spark应用越来越广泛，它将变成数据工程师的一项基本技能。

Apache Spark 2.0.1下载地址：http://spark.apache.org/downloads.html

Apache Spark 2.0 新特性与展望 : http://www.chinahadoop.cn/course/697

历史版本 :
Apache Spark 2.2.0 正式发布，提高可用性和稳定性
Spark 2.0 时代全面到来 —— 2.0.1 版本发布
Apache Spark 2.0.0 发布，APIs 更新
Apache Spark 1.6.2 发布，集群计算环境
Spark 2.0 预览：更简单，更快，更智能
Spark 2.7.6 发布，开源集群计算环境
Apache spark 1.6.1 发布，集群计算环境
Apache Spark 2.0 最快今年4月亮相
Apache Spark 1.6 正式发布，性能大幅度提升
Apache Spark 1.6 预览版：更简便的搜索
Apache Spark 1.5.2 发布，开源集群计算环境
Apache Spark 1.5.1 发布，开源集群计算环境

Spark 2.0 时代全面到来 —— 2.0.1 版本发布

Apache Spark

后端技术

前端技术

数据库

热门框架

常用IDE

其他