spark机器学习-分类回归总结

时间：2023-08-25

1.spark支持的分类包括以下几个场景：
a.二分类，顾名思义就是只分成A和B两类
b.多分类分成A，B，C，D等多个分类
不支持多标签分类，所谓的多标签分类是指一个样本可以属于多个分类，也就是比如样本X既属于A分类又属于B分类，spark目前不支持
分类的算法主要有逻辑回归分类算法，决策树，随即森林等，不管是哪种算法，不同点主要在于支持的分类数量和样本数量的限制不同，评价分类算法的好坏的标志主要是看准确性和areaUnderRoc值，areaUnderRoc主要是为了解决样本不均匀时使用准确率指标不科学的问题.

2.线性回归与分类的主要区别是预测的结果是实数值，而不是离散值，衡量回归的算法的好坏的标准主要是均方差等.

附混淆矩阵：

TP：预测为 1，预测正确，即实际 1
FP ：预测为 1，预测错误，即实际 0
FN ：预测为 0，预测错误，即实际 1
TN ：预测为 0，预测正确，即实际 0

参考wiki:
https://www.zhihu.com/question/39840928

上一篇：OpenCV.提取水平线和竖直线

下一篇：python面向对象