在数据挖掘中,描述数据的特征的维度越来越高,然而其中大部分特征可能和挖掘任务不相关或特征之间存在相互冗余,使得数据挖掘中学习算法的时空复杂度增高,效果变差,这种现象被称为维度灾难。面对维度灾难。如何降低维度显得非常迫切,特征选择就是一种有效的降维方法。通过特征选择,消除数据的无关和冗余特征,可以提高发现知识的效率,而且能够改善分类器的性能。因此,特征选择成为数据挖掘中的重要研究分支。
我印象较深的是几次比赛中,如果主办方不告知数据的业务含义,就会有很多种构造特征的方法,特征非常多的时候就很需要特征选择,可以说在这种比赛中特征选择是比赛的关键,比如近期的ccf的离散工件制造赛道。出题方并没有告知十个参数是什么参数。我们无法结合具体的业务含义来构造有效特征,只好暴力穷举,把能够想到的特征全部造出来,然后通过线下交叉验证测试可能的特征组合能够到多少分。
但是不断堆叠特征去拟合目标函数是不可取的,凡事有一个方法论,就是做什么事情得有个路数。现实世界中的数据纷繁复杂,不可避免存在大量噪音、不相关和不一致,因此对于特征选择的要求不断提高。粗糙集(rough set)理论是波兰的Z Pawlak院士在1982年提出的。是一种相对较新的软计算工具,能够处理不确定或者不精确的信息,他在特征选择算法中得到广泛应用,已逐渐成为一种重要的特征选择理论框架。基于粗糙集的特征选择,要求最终的到的特征子集,不仅其分类能力与原始特征集合的分类能力一致,而且具有最少的基数。
基于粗糙集的特征选择算法根据采用的搜索方法不同可分为三大类:
1、穷举法,选取所有的特征子集,然后选取最少基数的特征子集,明显不适合大数据集。
2、启发式方法,从一个特征子集出发,使用启发式信息来引导特征选择的过程,不断添加或者删除特征,直到满足条件
3、随机法,采用遗传算法等随机算法的搜索能力来产生最优特征子集
已经有文献证明 求出所有满足要求的特征子集是个NP难问题,穷举法肯定不适合,但是2和3无法保证选取到的是最优特征子集。
群智能是无智能或具有简单智能的个体组织在一起,如蚁群,鸟群,蜂群通过相互协作表现出智能行为的特性。
后续文章主要讲述如何通过群智能如:蚁群优化、粒子群优化、人工蜂群优化来解决特征选择的问题。欢迎关注。