-
安装
- 从官网下载最新版本的发布。目前是1.1.0
- 安装Java和JDK。安装完成后可以使用java -version来测试是否安装成功。
- 在spark解压后的目录使用./sbt/sbt --assembly
-
Hello World
第一个程序是分析Nginx日志,中的http response code。代码如下:from pyspark import SparkContext logFile = "20141010.log" sc = SparkContext("local", "Hello Spark") logData = sc.textFile(logFile).cache() counts = logData.map(lambda line: line.split()[8]).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b) counts.saveAsTextFile("spark_results")
-
Debug Shell
./spark-1.1.0/bin/pyspark
-
Submit File
./bin/spark-submit --master local[4] SimpleApp.py
-
Notes
- Spark中的所有转换都是惰性的,只有发生一个要求返回结果给Driver的动作时,这些转换才会被执行。