发布于 2016-01-05 13:38:13 | 593 次阅读 | 评论: 0 | 来源: PHPERZ

这里有新鲜出炉的精品教程,程序狗速度看过来!

Apache Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。


spark运行python代码一般使用命令
spark-submit test.py这样的形式来运行
如果代码中设置了参数的话,还需要在命令行中传入参数

其中spark默认使用的hdfs中的文档运行
如果要运行本地文件的话,可以加上file://

例如:

 spark-submit wordcount.py file:///home/tst

这样的形式

再简单记录一下spark的textfile函数,该函数返回的是一个RDD
使用spark处理数据的时候首先都要有一个RDD,然后使用这个自带的一些方法
来处理,方法如下:

转换:
    map
    filter
    flatmap
    sample
    groupByKey
    reduceByKey
    union
    join
    cogroup
    crossProduct
    mapValues
    sort
    partitionBy
操作:
    count
    collect
    reduce
    lookup
    save
在转换方法中的函数执行完后生成的还是一个RDD结构
而操作函数返回的就不是RDD了


最新网友评论  共有(0)条评论 发布评论 返回顶部

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务