欢迎您访问365答案网,请分享给你的朋友!
生活常识 学习资料

flink-ml技术调研

时间:2023-04-16

# 环境要求依赖Flink Table API (flink-version:1.14.0以上)# 分类模型1、KNN2、逻辑回归3、朴素贝叶斯# 聚类模型4、kmeans# 其他模型5、热编码算法# maven依赖(1) 使用工件flink-ml-core_2.12来开发自定义 ML 算法(2) 使用工件flink-ml-core_2.12和flink-ml-iteration_2.12开发需要迭代的自定义 ML 算法(3) 使用工件flink-ml-lib_2.12以使用中现成的 ML 算法。 org.apache.flink flink-ml-core_2.12 2.0.0 org.apache.flink flink-ml-iteration_2.12 2.0.0 org.apache.flink flink-ml-lib_2.12 2.0.0# 概念1、Stage是一个Pipeline或一个节点Graph (Flink ML 中的基础组件),这个接口只是一个概念,并没有任何实际功能2、Estimator3、AlgoOperator4、Transformer5、Model# 迭代1、有界迭代:通常用于离线情况2、无界迭代:通常用于在线案例# 迭代算法1、迭代算法有一个迭代体,它被重复调用,直到达到某些终止标准(例如,在达到用户指定的时期数之后)。迭代体是实现例如迭代机器学习算法的计算逻辑的算子子图,其输出可以作为该子图的输入被反馈。2、在每次调用中,迭代主体根据用户提供的数据以及最新的模型参数更新模型参数。3、迭代算法将用户提供的数据和初始模型参数作为输入。4、迭代算法可以输出任意用户定义的信息,例如每个 epoch 之后的损失,或者最终的模型参数。# 输入和输出输入:模型变量(作为数据流列表)和 用户提供的数据(作为另一个数据流列表)输出:反馈模型变量(作为数据流列表)和 用户观察到的输出(作为数据流列表)

# 有监督学习算法介绍 (分类、回归)# KNN1、思想将特征向量二维化,根据变量K(离测试数据最近的节点数目,一般取基数),计算测试数据距离所有节点的距离,采用少数服从多数的原则来决定测试数据的归属2、训练数据 特征向量 结果标签5.3,3.7,1.5,0.2,Iris-setosa5.0,3.3,1.4,0.2,Iris-setosa7.0,3.2,4.7,1.4,Iris-versicolor6.4,3.2,4.5,1.5,Iris-versicolor......3、训练参数k = 7split = 0.87 (切分训练数据和测试数据)4、测试代码https://github.com/ainusers/deep-learning/blob/master/%E5%85%A5%E9%97%A8%E7%AF%87/%E5%9F%BA%E7%A1%80/2.%20%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0%20-%20%E5%88%86%E7%B1%BB/2.%20%E6%9C%80%E9%82%BB%E8%BF%91%E8%A7%84%E5%88%99%E5%88%86%E7%B1%BB(KNN)/%E4%BB%A3%E7%A0%81/KNN-custom.py5、测试结果Train set: 129Test set: 20>predicted='Iris-setosa', actual='Iris-setosa'>predicted='Iris-setosa', actual='Iris-setosa'>predicted='Iris-setosa', actual='Iris-setosa'>predicted='Iris-setosa', actual='Iris-setosa'>predicted='Iris-setosa', actual='Iris-setosa'>predicted='Iris-setosa', actual='Iris-setosa'>predicted='Iris-setosa', actual='Iris-setosa'>predicted='Iris-setosa', actual='Iris-setosa'>predicted='Iris-setosa', actual='Iris-setosa'>predicted='Iris-versicolor', actual='Iris-versicolor'>predicted='Iris-versicolor', actual='Iris-versicolor'>predicted='Iris-versicolor', actual='Iris-versicolor'>predicted='Iris-versicolor', actual='Iris-versicolor'>predicted='Iris-versicolor', actual='Iris-versicolor'>predicted='Iris-versicolor', actual='Iris-virginica'>predicted='Iris-virginica', actual='Iris-virginica'>predicted='Iris-virginica', actual='Iris-virginica'>predicted='Iris-virginica', actual='Iris-virginica'>predicted='Iris-virginica', actual='Iris-virginica'>predicted='Iris-virginica', actual='Iris-virginica'Accuracy: 95.0%# 朴素贝叶斯1、思想对于给出的待分类项,求解在待分类项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别2、训练数据

Copyright © 2016-2020 www.365daan.com All Rights Reserved. 365答案网 版权所有 备案号:

部分内容来自互联网,版权归原作者所有,如有冒犯请联系我们,我们将在三个工作时内妥善处理。