8 BDAS Brief Introduction

AMPLab Spark Team created a big data company Databricks, 提供 Spark 的产品化支持.

One Framework to Rule Them All 利用 Spark 一站式构建自己的数据分析流水线

8.1 SQL on Spark

AMPLab Big data 分析负载分为三大类型 :

大数据分析栈中需要满足用户 ad-hoc、reporting、iterative 等类型的查询需求。

Spark SQL and Shark 是轻量级 Hive SQL 在 Spark 上的实现。

开源分布式大数据查询引擎

Hive 社区启动了 Hive on Spark 项目, 将 Spark 作为 Hive 除 MapReduce 和 Tez 之外的新执行引擎。

Hive on Spark 帮助现有 Hive 用户迁移到 Spark

由于 MapReuce 是进程级并行
例如: Hive 在不同的进程空间会使用一些 static 变量, 当在同一进程空间并行执行多线程时, 多线程同时写同名称 static 变量，会产生一致性问题。

AMPLab 和 Databricks 利用 Catalyst 开发了 Spark SQL。在 Spark 1.0 发布 Spark SQL

DBMS ：查询优化器 + 执行器

Spark SQL ： 查询优化 Catalyst + Spark执行引擎

使用 Spark SQL

Hive on Spark 会全面支持现有的 Hive, Hive 生态系统的组件可以过渡到 Spark 作为执行引擎。

Hive on Spark 设计方向和潜在的问题如下 :

数据表以 RDD 方式存储
Shuffle 和 Join

Spark 的 Shuffle 不进行分组排序
线程安全问题 ：

Spark 执行任务和分区是在一个 JVM 空间执行多线程，传统的 Hive 的 Map 端操作树将任务的每个线程分在不同的 JVM， Hive 操作中有静态变量，引发线程安全的问题
Java API

Hive on Spark 需要社区提供 Job监控和 RDD 扩展的 API。

Spark SQL 提供了对 RDD 的 SQL 支持，同时支持其他数据源。如 : Parquet 文件和 Hive table。

Databricks 和 AMPLab 会继续投资 Spark SQL， SQL on Spark 发展具有想象空间。

Spark Streaming 是一个批处理的流式计算框架, 执行引擎是 Spark, 适合处理实时数据与历史数据混合的场景, 并保证容错性。

GraphX 是 Spark 一个重要的子项目，它利用 Spark 为计算引擎，实现了大规模图计算和功能，并提供了累死 Pregel 的编程接口。

MLlib 常用的机器学习算法和库在 Spark 平台上的实现, 是 AMPLab 在研发机器学习项目 MLBase 的底层组件。

Mllib 在 Spark1.0 中包含分类、回归、聚类、协同过滤、数据降维组件以及底层的优化库

MLlib 充分利用 Spark 内存计算和适合迭代的特性, 使分布式系统与并行机器学习算法完美结合。