欢迎您访问365答案网,请分享给你的朋友!
生活常识 学习资料

腾讯云CHDFS助力微信秒级异常检测

时间:2023-05-02

1.微信全景监控平台介绍

微信全景监控平台,是微信的多维指标 OLAP 监控以及数据分析平台。支持自定义多维度指标上报,海量数据实时上卷下钻分析,提供了秒级异常检测告警能力。

项目高效支撑了视频号、微信支付、搜一搜等等业务快速迭代,已覆盖微信各产品线,峰值数据达到 30+亿条/min,3万亿+条/天。微信全景监控平台架构如下图所示:

全景监控平台的指标数据使用 Druid 引擎,Druid 引擎通将 CHDFS 作为其 DeepStorage 来进行数据存储和查询。

2.什么是 Druid

Druid 是一个分布式的、支持实时多维 OLAP 分析的数据处理系统。它既支持高速的数据实时摄入处理,也支持实时且灵活的多维数据分析查询。因此 Druid 最常用的场景就是大数据背景下、灵活快速的多维 OLAP 分析。

Druid 节点可以分为以下几类:

Master节点:Overlord、Coordinator

实时数据处理节点:MiddleManager、Peon

存储节点:Historical(数据分片)、HDFS(DeepStorage)(数据分片)、metaDataStorage(数据表结构等)、Zookeeper(IndexingTask信息)

数据访问节点:Broker、Router

3.Druid 与 CHDFS 完美结合

CHDFS(Cloud HDFS)是提供标准 HDFS 访问协议和分层命名空间的高性能分布式文件系统,由腾讯云存储团队自研的云原生数据存储产品。通过 CHDFS,可以实现计算与存储分离,极大发挥计算资源灵活性,同时实现存储数据永久保存,降低大数据分析资源成本。

在和 Druid 系统结合过程中,CHDFS 起到了两个重要的作用:

1、实时节点 (Peon) 和历史节点 (Historical) 数据交流的重要中转。

2、全量数据分片,Historical 负载均衡和容灾的基石。

整体数据流转架构:

Overlord 节点将任务分配给若干个 MiddleManager 节点。

MiddleManager 节点创建 Peon 节点,Peon 节点拥有独立的端口和 JVM,作为基本 Worker 进行数据消费和处理。

Peon 节点处理数据,打包分片,达到任务周期时间后,将分片发布到 DeepStorage 中。

Coordinator 协调 Historical 节点从 CHDFS 中下载 Segment。

Historical 下载完成,一次实时分片任务完成,Historical 接管这个分片的数据查询,Peon 销毁。

实时任务分片是从 Peon -> CHDFS(DeepStorage) -> Historical,其中 Overlord 作为实时任务的总 Master 节点负责调度实时任务并且下发任务 MiddleManager,MiddleManager 顾名思义:中间管理者,它接收 Overlord 的调度,并且作为「监工」生产 Worker(Peon) 并且同步任务状态。

Segment 容灾

如果一个 Historical 节点宕机或者处于不可用状态,Coordinator 将会感知到并且认为这个 Historical 中的数据分片都丢掉了。

但是 Coordinator 不会立刻让其它的 Historical 从 CHDFS 中加载这些 Segments,会有一个过渡期的数据结构,存储这些丢掉的 Segments 信息,如果这个 Historical 又回来了,那么它还是会对外提供服务,不会有分片转移,如果 Historical 宕机超过一定时间,Coordinator 会调度其它的 Historical 从 DeepStorage 中加载分片。

Segment 负载均衡

为了确保 Segment 在 Historical 节点中均匀分布,Coordinator 会自动检查所有的 Historical 的分片分布情况,并且调度利用率最低的 Historical 从 CHDFS 中加载分片,并且让利用率最高的 Historical 丢弃分片,从而完成负载均衡。

4.轻松配置 CHDFS 为 Druid DeepStorage

1、创建 CHDFS,创建权限组、权限规则和挂载点;

2、下载 CHDFS jar GitHub - tencentyun/chdfs-hadoop-plugin: the hadoop plugin for chdfs(下载链接:https://github.com/tencentyun/chdfs-hadoop-plugin);

3、将上述 jar 文件拷贝至extensions/druid-hdfs-storage 和hadoop-dependencies/hadoop-client/x.x.x ;

4、在 Druid 的 conf/druid/_common/common.runtime.properties  下,添加CHDFS 配置:

// segment存储druid.storage.type=hdfsdruid.storage.storageDirectory=ofs://xxx.chdfs.ap-shanghai.myqcloud.com/usr/xxx/druid/segments// indexer日志druid.indexer.logs.type=hdfsdruid.indexer.logs.directory=ofs://xxx.chdfs.ap-shanghai.myqcloud.com/usr/xxx/druid/indexing-logsconf/druid/_common/ 下添加 core-site.xml 和 hdfs-site.xml

5、配置 hadoop 环境配置 core-site.xml 和 hdfs-site.xml ;

// core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?> fs.AbstractFileSystem.ofs.impl com.qcloud.chdfs.fs.CHDFSDelegateFSAdapter fs.ofs.impl com.qcloud.chdfs.fs.CHDFSHadoopFileSystemAdapter fs.ofs.tmp.cache.dir /home/xxx/data/chdfs_tmp_cache fs.ofs.user.appid 00000000// hdfs-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?> fs.AbstractFileSystem.ofs.impl com.qcloud.chdfs.fs.CHDFSDelegateFSAdapter fs.ofs.impl com.qcloud.chdfs.fs.CHDFSHadoopFileSystemAdapter fs.ofs.tmp.cache.dir /home/qspace/data/chdfs_tmp_cache fs.ofs.user.appid 00000

 

6、通过 Indexer 日志可以看到,数据已经成功写入 HDFS,并且可以被 Historical 节点下载。

5.整体效果

当前,微信监控通过 CHDFS 存储了百 TB 级别,共计百万级别的文件,稳定运行没有故障。

相比于原 HDFS 依赖运维手动部署、维护,CHDFS 开箱即用,无运维、裁撤等问题,真正解决了业务的一大痛点。

CHDFS 产品非常稳定,微信监控共使用 百 TB 的存储空间、百万级别的文件,上线至今稳定运行无故障。后续,微信指标监控会逐步将所有的存储 DeepStorage 迁移至 CHDFS,总量达 PB 级别。

— END —

Copyright © 2016-2020 www.365daan.com All Rights Reserved. 365答案网 版权所有 备案号:

部分内容来自互联网,版权归原作者所有,如有冒犯请联系我们,我们将在三个工作时内妥善处理。