15秒摘要
1、公安领域当前遇到的挑战:数据种类繁多,质量参差不齐,用户业务场景多变,数据需要在多个平台之间来回同步,经常出现数据丢失的情形
2、模拟业务场景,进行性能测试,性能上比 Greenplum 强约4倍,在线分析功能速度更快,也带来更好的用户体验
3. MatrixDB 在海鑫大数据平台中实现离线平台和在线平台的统一,数据仓库及数据模型更简单化
作者
张春利 - 技术总监
罗昌英 - 业务专家
随着各种新技术的发展,高技术犯罪也在呈现日益增长的势头,公安建设依托公安云计算中心、公安应用平台和数据库,结合云计算、物联网等多种先进技术,帮助公安部门在应对各种复杂局面时作出更智慧的决策。
01 当前业务现状与挑战数据质量参差不齐
在公安刑侦领域中,数据的采集和使用一直备受重视。不同的途径汇集了各式各样的数据资源,如:业务系统所产生的数据,从其他警种汇聚不同种类的社会资源数据,还有侦查人员通过各种渠道收集的数据。
这样的数据种类繁多,数据质量差,部分数据量较大,数据治理和数据分析的难度非常大,需要对数据进行分级、分类和深度处理,并构建出复杂的数据模型。
业务场景需求多变
用户业务的场景多变,底层数据模型需要适应用户需求的变化。同时,用户的需求要对大量的数据进行在线分析,这对模型分析平台的性能有一定的要求。
当前业务挑战
海鑫大数据平台分为两部分进行建设,一部分为离线分析平台,使用 Hadoop 体系,依赖 HDFS、Hive、Hbase、Spark 等技术栈。主要针对数据量庞大的数据治理以及复杂的数据分析场景;另一部分是在线分析业务,主要使用 Greenplum(或 DeepGreen)分布式数据库、ElasticSearch、NebulaGraph 图数据库等技术,用来处理用户实时分析场景。
目前,海鑫大数据平台面临的主要问题是:数据需要在多个平台之间来回同步,经常会出现数据丢失的情形;平台太多,技术栈广,研发和运维成本都很大。公安行业的系统建设模式复杂,许多省、市的硬件资源由科信部门统一进行采购,分配给刑侦的硬件资源越来越少。
随着公安云的建设,各警种的平台建设都逐渐云化,服务器资源越来越少,想要把离线平台和在线平台分开将会越来越困难。因此,需要离线分析与在线分析平台统一。
02 性能测试由于公安网内部的数据无法连接到互联网,所以本次的测试在公司内网环境中进行。数据为部分模拟数据,根据业务场景来进行测试。
测试地点:北京海鑫科金高科技股份有限公司总部
硬件环境:
测试场景:案、人、物关联检索
数据情况:
测试结果:
03 测试初步结论通过对 MatrixDB 官方文档的了解和评测,MatrixDB 可以在海鑫大数据平台中进行使用,在数据量较小的地市进行试用。
1、实现离线平台和在线平台的统一
离线、在线两套平台可以统一迁移到 MatrixDB 数据库上,由于 MatrixDB 是基于成熟的 PostgreSQL 和 Greenplum 开发,具有高度兼容性,因此在线分析功能可以直接进行迁移,开发量相对较少。
基于 Hadoop + Spark 的离线分析则需要将部分业务功能进行重构,分析功能需要使用 PL / Python 来进行替代,这部分重构较大,技术可行性还需要进一步验证。
2、 数据仓库及数据模型更简单化
数据仓库主要使用 Hive,最大的问题是数据不能进行 update,目前采用分层和 Hbase 的 upsert 功能进行实现,但由于公安业务的复杂性,分层会非常多,使用 Hbase 的 upsert 功能又会造成 Hbase 表与 Hive 表同时使用,导致跨库使用不方便。使用 MatrixDB 的 upsert 功能后,让数据仓库内的数据模型变得更加简单。
3、 减少数据迁移
离线、在线两套平台统一,减少了数据同步环节;同时 MatrixGate 组件提供了强大的数据同步能力和监控能力,让数据同步更加简单。
4、 在线分析性能提升
目前看来,MatrixDB 比较适合做数仓使用,在性能上比 Greenplum 强约4倍,在线分析功能速度更快,也带来更好的用户体验。
5、 当前可能存在的问题
MatrixDB 可以替代公安领域的大部分场景,但依然存在着1个不足之处:MatrixDB 不是公有云通用组件,需要单独部署。我们也期待未来 MatrixDB 能提供跨云 DPaaS 服务。
04 结语以上是海鑫大数据平台在测试 MatrixDB 时的总结,接下来会在项目应用中继续完善上面提到的问题,进一步降低业务应用的复杂。
原文链接
本文为 yMatrix 原创内容,未经允许不得转载。
欲了解更多超融合时序数据库相关信息,请访问 “yMatrix” 官方网站