Spark 构建分类模型

在分类模型中，我们期望根据一组特征来判断类别，这些特征代表了物体、事件或上下文相关的属性（变量）。

二分类

多分类

分类是监督学习的一种形式

我们用带有 类标记 or 类输出 的训练样本训练模型（也就是通过输出结果监督被训练的模型）。

分类模型适用于很多情形，一些常见的例子如下：

focus on :

5.1 分类模型的种类

Spark 分类模型：

朴素贝叶斯模型可以作为一个很好的模型测试基准，用于比较其他模型的性能。

MLlib库提供 线性模型、决策树、朴素贝叶斯 的二分类模型，以及基于决策树和朴素贝叶斯的多类别分类模型

给定输入数据的特征向量和相关的目标值，存在一个权重向量能够最好对数据进行拟合，拟合的过程即最小化模型输出与实际值的误差。这个过程称为模型的拟合、训练或者优化。

具体来说，我们需要找到一个权重向量能够最小化所有训练样本的由损失函数计算出来的损失（误差）之和。损失函数的输入是给定的训练样本的权重向量、特征向量和实际输出，输出是损失。实际上，损失函数也被定义为连接函数，每个分类或者回归函数会有对应的损失函数。

MLlib 上常见的分类模型。

我们用正确的数据格式和数据分布、更多的训练数据、模型参数调优，以及交叉验证对模型能的影响。