在大数据时代,系统的数据来源广泛,各种类型的数据快速产生且爆发性增长。从数据的产生、ETL
、数据融合分析、数据应用直至最终消亡,在数据流转过程中数据之间的关联关系称为数据血缘关系。
数据血缘揭示了数据的生命周期——目标是记录并显示从数据产生到消亡的完整数据流。
数据血缘描述数据处理流程、表、报表、即席查询之间的流向关系、表与表的依赖关系、表与离线ETL任务、调度平台、计算引擎之间的依赖关系。
数据血缘是数据治理的重要一环,用于追踪数据的来源、评估数据价值、数据生命周期管理、数据安全管控。
Data lineage includes the data origin, what happens to it and where it moves over time、Data lineage gives visibility while greatly simplifying the ability to trace errors back to the root cause in a data analytics process.
如何写入数据血缘数据 显示效果 本示例创建三个数据集tableA、tableB、tableC, 由数据集A、B关联统计得到数据集C,如用户点击明细日志和用户表关联,按天统计PU/UV数据
显示效果如下: