欢迎您访问365答案网,请分享给你的朋友!
生活常识 学习资料

存算分离架构下的数据湖架构

时间:2023-07-22

日前,腾讯云高级工程师程力老师在 ArchSummit 全球架构师峰会上分享了存算分离架构下的数据湖架构。

针对存算分离架构带来的性能问题和数据本地性减弱问题,腾讯云的数据湖方案设计构建了新一代分布式计算端缓存层。该缓存不仅兼容 Hadoop 和对象语义,同时具备了结构化元数据管理的特性,还充分利用了对象存储 COS 的弹性伸缩和低成本的优势。

下面,让我们一起回顾下程老师的精彩演讲内容。

数据存储发展趋势

可分为4个阶段:

第一阶段:存算一体,孤岛

十几年前,网络速度远低于本地磁盘吞吐速度的时候,本地化读取数据可以换取更高的吞吐性能。但随着网络速度不断加快,磁盘吞吐速度逐渐成为计算瓶颈,本地盘 HDFS 压力加大,运维成本升高,可网络带宽资源却闲置,导致业务效率低下。

第二阶段:存算分离,存储、计算解耦

解耦计算和存储负载,系统负载均衡调度更加灵活,系统的资源利用率提高,节约成本,可以满足业务快速增长的需求。

第三阶段:数据湖,存储统一

随着业务多样化发展,业务间数据共享变得困难,而数据湖是一个集中式存储池,支持多种数据源,无缝对接各种计算分析和机器学习平台,实现数据处理与分析,打破数据孤岛。

第四阶段:云原生,计算统一

随着数据湖计算节点调度效率降低,云原生技术能构建和运行可弹性扩展的应用,跨多云构建微服务,持续交付部署业务生产系统。

云原生生态下的存算分离


腾讯云上的数据湖生态如上图所示,

数据湖底座:对象存储 COS;

云原生:serverless 架构,免运维;

数据共享:通过统一的对象存储 COS 作为弹性底座,结合三层加速器接入多种生态;

结构化数据管理:感知数据 Table 格式,支持按照 Hive Table 预热,支持 IcebergTable 管理等;

高性价比:弹性、按需扩容;

生态支持:支持 Hadoop 生态,K8S 生态等多种生态的部署、运维、鉴权等;

面向业务场景包括:数据本地性加强、 数据湖结构化、容器化调度。

以对象存储为底座的存算分离架构,腾讯云 COSN 对象⽂件系统接⼝:

实现了 HCFS 接⼝,全覆盖 HDFS ⼤数据计算应⽤;

实现了⽂件系统的扩展属性管理接⼝,允许⽤户对⽂件和⽬录设置 xAttr 的扩展属性;

实现了包含 CVM/EMR instance ⾓⾊授权以及临时密钥访问的凭证获取机制。

腾讯云数据湖三层加速

1、GooseFS :计算端 - 湖仓缓存加速(Cache Accelerator)

特点如下:

运⾏在 EMR/AI/ML/K8S 集群内,基于集群 MEM/SSD 资源,提供 Data Cache 能⼒;

热数据缓存在 Cache 中,对象存储保存全量数据;

针对各种计算引擎,提供 Data Locality 能⼒;

提供磁盘模式和内存模式,⽀持淘汰机制。

2、元数据加速:数据端 - 元数据加速(metadata Accelerator)

特点如下:

提供⽂件系统级别元数据操作能⼒;

Rename 操作,无需 Copy/Delete 数据;

List 操作,无频控;

每个 Bucket,提供10 万QPS。

3、COS 加速器:存储端- AZ 加速(Data Accelerator)

特点如下:

AZ 级部署,全 SSD 存储介质,热数据读加速;

提供 Tbps 带宽,满⾜⾼吞吐需求;

提供 ms 级别时延。

案例方案

方案1:TKE + GooseFS + COS 支持 OCR 搜索框架实例

方案2:GooseFS + COS + Tstor 支持云上云下打通应用实例

IOT 数据(⻋载数据、摄像头数据)上传到本地数据中心 TStor 对象存储;

本地⼤数据集群通过 GooseFS 加速数据访问,完成数据清洗和标注,⽣成训练数据集;

TStor ⾃动同步训练数据集到云上 COS 对象存储;

在云上按需拉起 GPU 训练集群,通过 GooseFS 加速,完成 AI 模型训练。

以上是程力老师分享内容的简要概括,更多精彩内容,可点击下方视频观看。

如您有疑问 请加群与我们交流

— END —

点「阅读原文」,1 元礼包等您领 & 点「在看」,让更多人发现精彩

Copyright © 2016-2020 www.365daan.com All Rights Reserved. 365答案网 版权所有 备案号:

部分内容来自互联网,版权归原作者所有,如有冒犯请联系我们,我们将在三个工作时内妥善处理。