1.spark支持的分类包括以下几个场景:
a.二分类,顾名思义就是只分成A和B两类
b.多分类 分成A,B,C,D等多个分类
不支持多标签分类,所谓的多标签分类是指一个样本可以属于多个分类,也就是比如样本X既属于A分类又属于B分类,spark目前不支持
分类的算法主要有逻辑回归分类算法,决策树,随即森林等,不管是哪种算法,不同点主要在于支持的分类数量和样本数量的限制不同,评价分类算法的好坏的标志主要是看准确性和areaUnderRoc值,areaUnderRoc主要是为了解决样本不均匀时使用准确率指标不科学的问题.
2.线性回归与分类的主要区别是预测的结果是实数值,而不是离散值,衡量回归的算法的好坏的标准主要是均方差等.
附混淆矩阵:
TP:预测为 1,预测 正确,即 实际 1
FP :预测为 1,预测 错误,即 实际 0
FN :预测为 0,预测 错误,即 实际 1
TN :预测为 0,预测 正确,即 实际 0
参考wiki:
https://www.zhihu.com/question/39840928