目录导读
数据库与数据仓库与数据湖泊的介绍
图数据库与图数据仓库的区别
图库发展与现状
HOLAP(ROLAP+MOLAP)图数仓的优点
HOLAP数仓数据摄入方式
HOLAP数仓数据存储方式
总结
最近,第一款面向大规模实时数据分析的HOLAP知识图谱数据仓库AbutionGraph发布了,同时也可以当作一款面向多种数据格式共同存储的数据湖系统(即湖仓一体架构),支持如图谱、时序数据、空间数据、文本、机器学习特征等,它们都是从图数仓中拆分出来基于HDFS的数据存储与管理子系统,在后续文章中会做介绍。以下篇幅内容均出自AbutionGraph的设计架构拆分。
既然是图谱数据仓库,那咱们先来了解一下:
一数据库(DataBase)与数据仓库(DataWarehouse)与数据湖泊(DataLake)的介绍数据库一般指联机操作数据系统(OnlineTransactionProcessing)OLTP定义:面向事务操作、数据增删改查,存储既定的历史数据。
数据仓库一般指联机分析处理系统(OnlineAnalyticalProcessing)OLAP定义:面向分析、管理、决策、一般只进行读写操作的有组织的数据集合,可按时间区分数据。
数据湖泊一般指可以存储海量任意类型且有能管理这些数据能力的数据系统,我们熟知的HDFS就是一个很好的数据湖底座。
如定义所述,三者最主要的区别是用途不同,即面向的业务场景不同。一些经典热门的数据库的特性比较如下:
特征\产品
数据库(OLTP)
数据仓库(OLAP)
离线
MySQL、Oracle
ApacheHive/Presto
实时
Hbase、Tikv
ApacheDruid/Kylin
用户
初级的
决策者/高级的
功能
基本查询
分析决策
架构
面向应用
面向主题
数据
当前的,二维的
历史的,多维的
存取
百千条
上百万条
场景
简单事务
复杂查询
用户数
上千个
上百万个
数据量
MB~GB
GB、TD、PB、EB
通过概念和表格对比之后,相信我们已经了解了数据库和数据仓库的区别,接下来将会很好区分图数据库和图数据仓库。
二图数据库(GraphDataBase)与图数据仓库(GraphDataWarehouse)的区别图谱-数据库是数据库的延伸,也指OLTP操作数据系统:在面向事务操作、数据增删改查,存储既定的历史数据的同时,可高效地管理大量关联数据,挖掘数据之间的深层关系。相当于给数据库中的每一条数据加上了实体和关系的数据结构,构成一个存储所有历史数据的“数据图谱”。
图谱-数据仓库是数据仓库+图数据库的延伸,也指OLAP分析处理系统:在面向分析、管理、决策的有组织的数据集合,可按时间区分数据,实时依据历史数据得出总结的同时,可高效地管理超大规模关联数据,挖掘数据之间的深层关系。相当于给知识图谱加了多维立方体“动效”,每一个实体/关系上的每一个时间维度上的每一个属性都是“实时动态”在线更新的,决策者可以快速的得知事件的原因和动向,进行下一步动作。
我们从下表中看看都有那些不同:
特征\产品
图数据库(OLTP)
图数据仓库(OLAP)
离线
Neo4J、JanusGraph
无
实时
TigerGraph
AbutionGraph(唯一)
用户
初级的
决策者/高级的
功能
基本查询
分析决策
架构
面向应用
面向主题
数据
当前的,二维的
历史的,多维的
存取
读取10条记录
读取上百万条
场景
简单事务
复杂查询
用户数
上千个
上百万个
数据量
MB~GB
GB、TD、PB、EB
聚合响应
秒~次天
亚秒~秒
三图库发展与现状图数据库是目前市场的应用主流,因为知识图谱技术还处于新兴领域,图库产品屈指可数,都属于OLTP系统,部分功能也相对落后,如:Neo4J与JanusGraph,这两款离线的图库占据了国内90%以上的市场,实时入库性能较好的TigerGraph,因其高昂的售价,多为大企使用。而在OLAP图数仓领域目前只有图特摩斯科技的AbutionGraph这一款产品,是一款HybridOLAP图库,在性能和各方面功能上,都做了很多颠覆性的图库技术。
鉴于知识图谱优秀的知识检索和推理能力,可广泛应用于智能问答、关系搜索、个性化推荐、欺诈检测、金融风控、军工情报、供应链管理、loT监控、企业画像、线上零售、医疗保健等场景。因图库产品的缺少,图技术认知不够,性能等各方面技术落后于工业场景的需求,知识图谱数据库的落地案例还很少。为了大力发展知识图谱技术,国家科技部也把“时序动态知识图谱技术”纳入到了年的重大人工智能技术发展目标中,“时序动态”其实是我们接下来章节中介绍的MOLAP架构,也是AbutionGraph中使用的架构之一,相信在未来实时图数据仓库会和实时数据仓库一样成为企业的硬核底座。
四HybridOLAP(ROLAP+MOLAP)图数仓的优点使用AbutionGraph作为OLAP服务的常见的应用场景包括:BI报表,监控系统、用户行为分析、在线分析,特征分析,Ad-hoc,DataFlow,ETL等场景,绝大多数OLAP场景需要查询最近一段时间的数据(过去一分钟,过去三天,过去一周,过去一个月等),它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。OLAP按存储的数据存储格式分为ROLAP、MOLAP和HOLAP,前两者都有明显的优缺点,面向的应用场景也有所不同,HOLAP则是ROLAP和MOLAP的混合形式。
种类\介绍
介绍
产品
优点
缺点
MOLAP
(Multi-dimensional)
以多维数组(Multi-dimArray)为存储模型的OLAP
特点:数据预计算(pre-