在模型圈内有这么一句俗话, “特征决定了模型的上限, 而算法只是逼近这个上限”,由此可见特征工程在风控建模中的重要程度。 特征工程的本质是基于原始数据的信息提炼, 风控场景中的很多数据源, 单独来看可能和风险表现关联性并不强,但是加工成特征后, 却会与我们想要预测的目标产生紧密的联系。
1、统计量
统计量是特征工程中最常用到的一类方法, 是对于原始数据的浅层加工。 风控 场景中原始采集到的多为明细数据, 通过统计量的方式,可以快速地汇总并刻画出数据分布的规律, 在短时间内构建上千维特征。 常见的统计量包括总和、最大值、 平均值、比例、排名、最早、最近等, 可以从金额、频率、天数、类型等多个角度出发,结合时间窗口的因素去尝试构建。 以征信报告中24个月的还款明细为例,可以有历史/当前逾期本金、历史/近18个月/近12 个月/近6个月逾期次数、历史/当前最大逾期天数、最早/最近逾期距今时长、信用卡/贷款逾期本金占比等多个特征,这些特征从各个角度描述了借款人的信用历史状况。
2、离散化
大多数的原始数据都是数值型, 可以加工成统计量, 但也有少部分的数据本身是字符型, 或者加工成统计量有违实际含义, 此时就需要用离散化的方式来处理。离散化是将连续值转化为离散值的过程,常见于基本信息的加工中。
3、时间周期趋势
对于积累时间较长的原始数据, 还可以加工一些时间周期类特征, 包括标准差、变异系数、同比、环比、新增数、连续增长、连续下降等,考察借款人的变化趋势。
4、隐性特征
除去上面介绍的这些显性特征, 还有一类没有具体业务含义的隐性特征, 是通过深度模型挖掘得来的, 是对客户商品购买、 出行地点、点击行为的高维向量表示, 已经在许多头部互联网金融机构的风控模型中得到了效果验证。
5、用户画像
最后还有一类特征, 主要基于风控建模人员通过数据分析或者专家经验给出逻辑加工而成, 这里统称为用户画像。 画像类特征是风控建模场景中较为常见的一类特征,是对金融机构内外数据源的高度浓缩, 既可以加入风控模型中增强可解释性, 也可以在满足合规要求后对外输出。
备注:部分内容来源于网络,侵删