简单地说,监督学习是:我们有一个带标签的训练集,然后我们的目标是找到一条可以区分正样本和负样本的决策边界,即用假设函数拟合标签。无监督学习的数据没有标签
聚类算法 在聚类问题中,我们给定一组未加标签的数据集,希望找到一个算法能够自动地将这些数据分成有紧密关系的子集或簇。
应用
K-means算法
第一个for 循环:对于每个样本从第1个到K个最接近X^i 的聚类中心下标,赋给C ^i
第二个for 循环:移动聚类中心,即将聚类中心移动到簇的均值处,若某个中心没有点,通常删除这个点,或者随记初始化这个点。
K-means算法可以用于分离不佳的簇的问题,如下右图衣服尺码问题
类似于监督学习中的代价函数,如图,其值等于样本到所属簇距离平方和的均值。优化目标即找到C使得J最小。
有时叫失真代价函数或K均值算法的失真
关于C最小化J
关于μ最小化J
选取k个点作为初始化聚类中心
而有些初始化会出现局部最优的情况
解决方法为多次随记初始化,选择J最小的聚类中心
最常见的办法还是手动选择
肘部法则(一般不要期望它能帮你解决问题)
有时可以基于某一标准评估算法对于后续目标的表现来决定k