欢迎您访问365答案网,请分享给你的朋友!
生活常识 学习资料

DataHub:现代数据栈的元数据平台--如何将数据血缘关系写入DataHub

时间:2023-07-25
什么是Data lineage?

在大数据时代,系统的数据来源广泛,各种类型的数据快速产生且爆发性增长。从数据的产生、ETL
、数据融合分析、数据应用直至最终消亡,在数据流转过程中数据之间的关联关系称为数据血缘关系。

数据血缘揭示了数据的生命周期——目标是记录并显示从数据产生到消亡的完整数据流。
数据血缘描述数据处理流程、表、报表、即席查询之间的流向关系、表与表的依赖关系、表与离线ETL任务、调度平台、计算引擎之间的依赖关系。

数据血缘是数据治理的重要一环,用于追踪数据的来源、评估数据价值、数据生命周期管理、数据安全管控。

Data lineage includes the data origin, what happens to it and where it moves over time、Data lineage gives visibility while greatly simplifying the ability to trace errors back to the root cause in a data analytics process.

如何写入数据血缘数据 显示效果

本示例创建三个数据集tableA、tableB、tableC, 由数据集A、B关联统计得到数据集C,如用户点击明细日志和用户表关联,按天统计PU/UV数据
显示效果如下:

Copyright © 2016-2020 www.365daan.com All Rights Reserved. 365答案网 版权所有 备案号:

部分内容来自互联网,版权归原作者所有,如有冒犯请联系我们,我们将在三个工作时内妥善处理。