欢迎您访问365答案网,请分享给你的朋友!
生活常识 学习资料

数仓元数据管理Atlas的使用

时间:2023-07-10
文章目录

Atlas的简介Solr的安装Atlas的安装和配置

Kerberos相关配置 Atlas的登录和启动Atlas 的使用(案例)Atlas的项目实战

Hive元数据增量同步

全流程调度查看血缘依赖 扩展内容 Atlas的简介

简介

Solr的安装

Solr的安装

Atlas的安装和配置

Atlas的安装和配置

Kerberos相关配置

若Hadoop集群开启了Kerberos认证,Atlas与Hadoop集群交互之前就需要先进行Kerberos认证。若Hadoop集群未开启Kerberos认证,则本节可跳过。
1,为Atlas创建Kerberos主体,并生成keytab文件

[root@hadoop102 ~]# kadmin -padmin/admin -wadmin -q"addprinc -randkey atlas/hadoop102"[root@hadoop102 ~]# kadmin -padmin/admin -wadmin -q"xst -k /etc/security/keytab/atlas.service.keytab atlas/hadoop102"

2,修改/opt/module/atlas/conf/atlas-application.properties配置文件,增加以下参数

atlas.authentication.method=kerberosatlas.authentication.principal=atlas/hadoop102@EXAMPLE.COMatlas.authentication.keytab=/etc/security/keytab/atlas.service.keytab

Atlas的登录和启动

Atlas的登录和启动

Atlas 的使用(案例)

Atlas 的使用

Atlas的项目实战 Hive元数据增量同步

Hive元数据的增量同步,无需人为干预,只要Hive中的元数据发生变化(执行DDL语句),Hive Hook就会将元数据的变动通知Atlas。除此之外,Atlas还会根据DML语句获取数据之间的血缘关系。

全流程调度

为查看血缘关系效果,此处使用Azkaban将数仓的全流程调度一次。
1,新数据准备
1)用户行为日志
(1)启动日志采集通道,包括Zookeeper,Kafka,Flume等
(2)修改hadoop102,hadoop103两台节点的/opt/module/applog/application.yml文件,将模拟日期改为2020-06-17如下

#业务日期mock.date: "2020-06-17"

(3)执行生成日志的脚本

lg.sh

(4)等待片刻,观察HDFS是否出现2020-06-17的日志文件

2)业务数据
(1)修改/opt/module/db_log/application.properties,将模拟日期修改为2020-06-17,如下

#业务日期mock.date=2020-06-17

(2)进入到/opt/module/db_log路径,执行模拟生成业务数据的命令,如下

java -jar gmall2020-mock-db-2021-01-22.jar

(3)观察mysql的gmall数据中是否出现2020-06-17的数据

2,启动Azkaban

在个节点创建hadoop组

[root@hadoop102 ~]# groupadd hadoop[root@hadoop103 ~]# groupadd hadoop[root@hadoop104 ~]# groupadd hadoop

在各节点创建azkaban用户

[root@hadoop102 ~]# useradd azkaban -g hadoop[root@hadoop102 ~]# echo azkaban | passwd --stdin azkaban[root@hadoop103 ~]# useradd azkaban -g hadoop[root@hadoop103 ~]# echo azkaban | passwd --stdin azkaban[root@hadoop104 ~]# useradd azkaban -g hadoop[root@hadoop104 ~]# echo azkaban | passwd --stdin azkaban

将各节点Azkaban安装路径所有者改为azkaban用户

[root@hadoop102 ~]# chown -R azkaban:hadoop /opt/module/azkaban[root@hadoop103 ~]# chown -R azkaban:hadoop /opt/module/azkaban[root@hadoop104 ~]# chown -R azkaban:hadoop /opt/module/azkaban

注意需使用azkaban用户启动Azkaban

1)启动Executor Server
在各节点执行以下命令,启动Executor

[root@hadoop102 ~]# sudo -i -u azkaban bash -c "cd /opt/module/azkaban/azkaban-exec;bin/start-exec.sh"[root@hadoop103 ~]# sudo -i -u azkaban bash -c "cd /opt/module/azkaban/azkaban-exec;bin/start-exec.sh"[root@hadoop104 ~]# sudo -i -u azkaban bash -c "cd /opt/module/azkaban/azkaban-exec;bin/start-exec.sh"

2)激活Executor Server,任选一台节点执行以下激活命令即可

[root@hadoop102 ~]# curl http://hadoop102:12321/executor?action=activate[root@hadoop102 ~]# curl http://hadoop103:12321/executor?action=activate[root@hadoop102 ~]# curl http://hadoop104:12321/executor?action=activate

3)启动Web Server

[root@hadoop102 ~]# sudo -i -u azkaban bash -c "cd /opt/module/azkaban/azkaban-web;bin/start-web.sh"

1)工作流参数

查看血缘依赖

此时在通过Atlas查看Hive元数据,即可发现血缘依赖

扩展内容

扩展内容

Copyright © 2016-2020 www.365daan.com All Rights Reserved. 365答案网 版权所有 备案号:

部分内容来自互联网,版权归原作者所有,如有冒犯请联系我们,我们将在三个工作时内妥善处理。