Atlas 概述Atlas 架构原理Atlas2.1 特性
元数据:数据中的数据,通俗来讲是从很多个数据集当中找出最有价值的数据信息。
Atlas 概述 Apache Atlas 为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,形成数据字典。并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。
注:数据字典:可以查到 hive 库的释义,表的介绍以及字段的解释和说明。
1)表与表之间的血缘依赖
2)字段与字段之间的血缘依赖
metadata Sources:目前,Atlas支持从以下来源提取和管理元数据:Hbase 、Hive、Sqoop、Storm、Kafka。
Admin UI: 该组件是一个基于Web的应用程序,允许数据管理员和科学家发现和注释元数据。这里最重要的是搜索界面和类似SQL的查询语言,可用于查询Atlas管理的元数据类型和对象。
Ranger Tag based Policies:权限管理模块。
Business Taxonomy:业务分类
Messaging: 除了API之外,用户还可以选择使用基于Kafka的消息传递接口与Atlas集成。
API: Atlas的所有功能都通过REST API向最终用户暴露,该API允许创建,更新和删除类型和实体。它也是查询和发现Atlas管理的类型和实体的主要机制。
采集/导出(Ingest/Export):采集组件允许将元数据添加到Atlas。同样,“导出”组件将Atlas检测到的元数据导出。
类型系统(Type System): 用户为他们想要管理的元数据对象定义模型。Type System称为“实体”的“类型”实例,表示受管理的实际元数据对象。
图形引擎(Graph Engine): Atlas在内部使用Graph模型持久保存它管理的元数据对象。
metadata Store:采用Hbase来存储元数据
Index Store:采用Solr来建索引
Atlas2.1 特性 1)更新了组件可以使用 Hadoop3.1、Hive3.1、Hive3.0、Hbase2.0、Solr7.5 和 Kafka2.0
2)将 JanusGraph 版本跟新为 0.3.1
3)更新了身份验证支持可信代理
4)更新了指标模块收集通知
5)支持 Atlas 增量导出元数据