flink-ml技术调研

时间：2023-04-16

# 环境要求依赖Flink Table API (flink-version：1.14.0以上)# 分类模型1、KNN2、逻辑回归3、朴素贝叶斯# 聚类模型4、kmeans# 其他模型5、热编码算法# maven依赖(1) 使用工件flink-ml-core_2.12来开发自定义 ML 算法(2) 使用工件flink-ml-core_2.12和flink-ml-iteration_2.12开发需要迭代的自定义 ML 算法(3) 使用工件flink-ml-lib_2.12以使用中现成的 ML 算法。 org.apache.flink flink-ml-core_2.12 2.0.0 org.apache.flink flink-ml-iteration_2.12 2.0.0 org.apache.flink flink-ml-lib_2.12 2.0.0# 概念1、Stage是一个Pipeline或一个节点Graph (Flink ML 中的基础组件),这个接口只是一个概念，并没有任何实际功能2、Estimator3、AlgoOperator4、Transformer5、Model# 迭代1、有界迭代：通常用于离线情况2、无界迭代：通常用于在线案例# 迭代算法1、迭代算法有一个迭代体，它被重复调用，直到达到某些终止标准（例如，在达到用户指定的时期数之后）。迭代体是实现例如迭代机器学习算法的计算逻辑的算子子图，其输出可以作为该子图的输入被反馈。2、在每次调用中，迭代主体根据用户提供的数据以及最新的模型参数更新模型参数。3、迭代算法将用户提供的数据和初始模型参数作为输入。4、迭代算法可以输出任意用户定义的信息，例如每个 epoch 之后的损失，或者最终的模型参数。# 输入和输出输入：模型变量（作为数据流列表）和用户提供的数据（作为另一个数据流列表）输出：反馈模型变量（作为数据流列表）和用户观察到的输出（作为数据流列表）

# 有监督学习算法介绍（分类、回归）# KNN1、思想将特征向量二维化，根据变量K(离测试数据最近的节点数目，一般取基数)，计算测试数据距离所有节点的距离，采用少数服从多数的原则来决定测试数据的归属2、训练数据特征向量结果标签5.3,3.7,1.5,0.2,Iris-setosa5.0,3.3,1.4,0.2,Iris-setosa7.0,3.2,4.7,1.4,Iris-versicolor6.4,3.2,4.5,1.5,Iris-versicolor......3、训练参数k = 7split = 0.87 (切分训练数据和测试数据)4、测试代码https://github.com/ainusers/deep-learning/blob/master/%E5%85%A5%E9%97%A8%E7%AF%87/%E5%9F%BA%E7%A1%80/2.%20%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0%20-%20%E5%88%86%E7%B1%BB/2.%20%E6%9C%80%E9%82%BB%E8%BF%91%E8%A7%84%E5%88%99%E5%88%86%E7%B1%BB(KNN)/%E4%BB%A3%E7%A0%81/KNN-custom.py5、测试结果Train set: 129Test set: 20>predicted='Iris-setosa', actual='Iris-setosa'>predicted='Iris-setosa', actual='Iris-setosa'>predicted='Iris-setosa', actual='Iris-setosa'>predicted='Iris-setosa', actual='Iris-setosa'>predicted='Iris-setosa', actual='Iris-setosa'>predicted='Iris-setosa', actual='Iris-setosa'>predicted='Iris-setosa', actual='Iris-setosa'>predicted='Iris-setosa', actual='Iris-setosa'>predicted='Iris-setosa', actual='Iris-setosa'>predicted='Iris-versicolor', actual='Iris-versicolor'>predicted='Iris-versicolor', actual='Iris-versicolor'>predicted='Iris-versicolor', actual='Iris-versicolor'>predicted='Iris-versicolor', actual='Iris-versicolor'>predicted='Iris-versicolor', actual='Iris-versicolor'>predicted='Iris-versicolor', actual='Iris-virginica'>predicted='Iris-virginica', actual='Iris-virginica'>predicted='Iris-virginica', actual='Iris-virginica'>predicted='Iris-virginica', actual='Iris-virginica'>predicted='Iris-virginica', actual='Iris-virginica'>predicted='Iris-virginica', actual='Iris-virginica'Accuracy: 95.0%# 朴素贝叶斯1、思想对于给出的待分类项，求解在待分类项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别2、训练数据

上一篇：BigData相关概念

下一篇：spark中broadcastoom解决方案