Spark 学习笔记

1752 查看

  • 安装

    1. 从官网下载最新版本的发布。目前是1.1.0
    2. 安装Java和JDK。安装完成后可以使用java -version来测试是否安装成功。
    3. 在spark解压后的目录使用./sbt/sbt --assembly
  • Hello World
    第一个程序是分析Nginx日志,中的http response code。代码如下:

    from pyspark import SparkContext
    
    logFile = "20141010.log"
    
    sc = SparkContext("local", "Hello Spark")
    logData = sc.textFile(logFile).cache()
    
    counts = logData.map(lambda line: line.split()[8]).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
    
    counts.saveAsTextFile("spark_results")
    
  • Debug Shell

    ./spark-1.1.0/bin/pyspark
    
  • Submit File

    ./bin/spark-submit  --master local[4]   SimpleApp.py
    
  • Notes

    1. Spark中的所有转换都是惰性的,只有发生一个要求返回结果给Driver的动作时,这些转换才会被执行。
  • 资源
    Spark官网
    CSDN Spark
    知乎精华答案
    Spark编程指南(Python)版