随着大数据越来越流行,越来越多的公司建了自己的数据仓库、数据湖或者湖仓一体。但是随着数据量越来越多,数据管理就出现了问题,就需要做数据治理。关于数据治理是一个很大的课题,下面我从数据质量校验谈谈我的看法。
首先,数据质量校验分为6部分,准确性,完整性,一致性,唯一性,规范性,时效性。
准确性: 表现在数据与目标特征之间的差异程度 1.数据的值域约束,即数据的取值应在其值域范围内(具有业务意义的连续范围)【数据值域约束】
2.数据的规则约束,是指业务上、技术上对于不用数据项间的相互校验关系,可以是等值校验,也可以为不等值校验【数据规则约束】
如:合同到期日期应大于开始日期,交易金额 = 交易单价 * 交易数量,不满足则说明不符合数据质量准确性标准
3.代码数据存在于代码列表【代码取值约束】
1.数据无值,即NULL【非空约束】
2.数据虽有值,但其值为无意义的空格或特殊字符【非法值约束】
3.记录缺失,即目标表中的记录数少于源系统中的记录数【记录缺失】
4.数据保存历史周期不满足要求【数据保存周期】
如:员工的完整信息中,应当包含婚姻状态。婚姻状态为null,则说明不符合数据质量完整性标准。
1.数据引用约束,即通常所说的参照完整性(数据引用约束)主外键
2.同一个数据项在系统间或系统内部流传,该数据项的信息保持一致(数据流转约束)数据同步
如:账户中的客户编号在客户信息中不存在,则说明不符合数据质量一致性标准。
主键唯一性约束,是指一个唯一标识只能属于一个个体。【主键唯一约束】
规范性: 表现在数据格式的规范程度 1.数据长度要求:即对数据长度的约束【长度约束】
2.数据精度要求:即对数据精度的约束【精度约束】
3.数据格式要求:即对数据中各位取值的约束,如日期的格式(格式约束)
如:合同到期格式为YYYY-MM-DD,不符合改格式说明不符合数据质量规范性要求
1.数据获取的时间是否在指定时间窗口内【获取时间约束】
2.数据获取的频率是否在指定的频率范围内【获取频率约束】
3.系统处理是否满足及时性要求【系统更新及时性约束】
如:RWA要求至少每月计算一次,低于改频率则说明不符合数据质量及时性标准。
以上就是目前我对数据质量校验的理解,做到以上6点,数据的问题就会减少很多。数据治理是一个耗时耗力的大工程,需要不断地投入人力物力,持续不断地改进,才能做好。