数据采集(ETL)
获取数据数据清洗数据转换数据分析计算
根据需求获取想要的数据分析的结果需要存储起来MySQLredisES
数据展示
其他的业务系统需要使用分析计算好的数据从存储系统中查询数据大屏显示
01MaxCompute相关概述
精准营销 用户画像 供需预测 =》需求非常强的算力
实际工作中MR是用来做ETL 数据加载 数据清洗
02相关概念
项目空间Project
开通MaxComputer服务--安装启动mysql软件创建项目空间Project-----在mysql中创建一个数据库cxmall创建表--创建表表分区---分区表Table 分区Partition 任务Task(1.采集用户行为数据2.分析计算,得到结果数据3.推送信息)
资源Resource java程序MR程序->jar 脚本文件.sh
函数Function 自带的函数sum() count() avg() 自定义函数UDF函数
任务(Task)
单个SQL Query 或者MapReduce程序统称为一个任务
工作流
有向无环图 描述各个Task之间的依赖关系和约束
作业(Job)
由一个或多个Task以及表示。。。工作流组成
作业实例(Instance)
当作业被提交就会拥有作业实例
03基础架构
客户端
接入层
逻辑层
计算层
04应用场景
05计费规则
计量计费
存储计费
计算计费
下载计费
账单
阿里飞天系统对外提供的具体组件
夸父:网络
网络通信模块连接千万台主机,主宰众神之间的沟通
目标
可靠、高效、实用、简单
夸父的力量
共享连接降低系统资源消耗共享智慧诠释团队无边力量
女娲:协同
终极的可靠中心提供名字服务,识别众神
女娲的目标
可靠性还是可靠
仓颉
统一的消息格式,序列化反序列化时使用众神之间沟通的语言
仓颉的目标
兼容高效易用
伏羲:调度
管理计算资源,调度Service和job提供编程接口
伏羲的目标
易用性:编写分布式程序很简单可扩展性:完善的容错机制可共享型:支持Service和job支持。。。
盘古:存储
管理存储资源,支持无结构数据存储保证数据的正确、可靠
目标
可靠性:硬盘或者机器坏时数据仍正确使用可扩展性:增加机器即可增加存储空间和系统吞吐量多用户共享:提供访问控制,配额管理和资源统计
神农:监控
素问:收集众神信息,异常情况报警灵柩:异常情况报警,自动故障预防/处理
神农的目标
低系统影响易扩展高智能
后羿
通过虚拟技术共享计算资源单机应用在云平台运行