风控场景下的数据源主要可以分为两类。 一类是银行和互联网金融机构通过自身业务线产生的金融数据, 包括征信报告、 交易流水、理财产品等, 这些强金融属性数据由于直接与客户的金融行为挂钩, 因而能够比较好地刻画客户的风险状况。另一类是非金融机构产生的数据, 例如运营商、 地理位置、设备属性等,这些弱金融属性数据虽然不能直接反映客户的风险, 但是通过特征和模型方式上的加工, 能 够对强金融属性数据起到较好的补充和增益作用, 因此也被纳入风控大数据体系内。
1、征信报告
介绍风控大数据, 首先就要从央行征信报告说起。征信报告来自中国人民银行征信中心, 是由国家设立的金融信用信息基础数据库,由国内各类放贷机构定期上报后经征信中心统一汇总而成。
2、消费能力
消费数据主要来自银行卡的交易流水和部分互联网巨头所掌握的特定场景下的消费流水, 例如电商、出行等。 消费数据主要包括客户的消费金额、消费频率、消费偏好、消费时段、消费排名、消费稳定性等,能够衡量客户的消费能力, 从而计算客户的风险状况和收入情况。 对于掌握了一些特定场景的互联网巨头, 消费数据可以帮助筛选出一批体系内的活跃用户, 用来开白或者增信,保证业务开展前期风险在可控范围内。
3、资产状况
资产状况可以分为固定资产和流动资产。
4、基本信息
基本信息也是风控场景中应用较为广泛的一类数据源, 不仅可以用在准入阶段制定年龄和地区的白名单,也可以作为风控模型的人模特征。
5、黑名单
市面上的黑名单数据来源较为广泛,定义也各不相间,这里分情况来介绍。首先是公安部门的黑名单和最高法院的失信被执行人,这类数据命中率不会太高,但是被命中人群都是有过案底或重大违约记录的,应当配置策略直接拦截。其次是互联网巨头,包括阿里、腾讯、 京东等,对外输出基于体系内数据和坏样本的黑名单评分模型。最后还有一类黑名单,是金融机构在业务开展过程中自行积累的内部黑名单库,包括欺诈名单、严重逾期名单、 欺诈设备ID等,这部分黑名单数据更加贴合机构自身的业务和数据特性,并且生成逻辑透明,可以通过案件调查的方式深挖背后隐藏的规律。
6、多头借贷
多头是指客户在多家借款机构发生注册、 申请、 贷款、 逾期等行为,是信贷风控场景中一类具有特色并且非常重要的数据源。 对于存在多头行为的借款人,通常代表该客户在近期内资金状况较差, 在多个平台上寻求贷款并且身背大量共债, 暗含着较高的信用风险和欺诈风险, 是金融机构需要重点识别和筛选的客群。
7、运营商
运营商数据主要通过与三大运营商直接或者间接合作获得, 目前整体接入价格较高, 机构会优先选择几个验真类服务接入, 通过输入手机号码,运营商返回是否真实、 是否小号、 是否疑似养卡等字段, 帮助机构进行反欺诈验证工作。除去验真类数据, 在网时长和在网状态这两个特征, 由于覆盖三网并且接入渠道较多,也经常被用于风控策略和模型中。
8、地理位置
由于业务需要, 各类互联网金融App都会或多或少地采集借款人的地理位置信息用于风控建模。
9、设备属性
目前大多数信贷业务均发生在移动端, 因而借款人在贷款申请时所使用的移动设备也能够很好地被用来进行风险识别。 设备属性包括设备ID、设备型号、手机品牌、操作系统、版本型号、连接WiFi的MAC地址等。
10、操作行为
对于隐蔽性较强的欺诈风险, 操作行为数据是目前应用较多并且效果比较好的 一类数据源。 通过分析借款人的操作习惯、页面停留时长、人脸失败次数等特征,风控人员可以量化每笔操作涉及第一方欺诈或者第三方欺诈的可能性,进而实时提醒或者拦截, 预防欺诈案件的发生。 不过操作行为数据虽然效果明显, 但是由于是线上实时采集和计算的, 难免存在线上数据丢失、计算延迟、线上线下模型特征差异等问题,需要风控人员在离线建模阶段进行更细致的分析, 并且做好线上实时监控的工作。
备注:部分内容来源于网络,侵删