IoT数仓与标准数仓的区别

GaussDB(DWS)中的IoT数仓与标准数仓是两种不同类型产品,在使用上也存在一定差异,具体可参考表1进行对比分析。

    表1 IoT数仓与标准数仓的差异

      数仓类型
      适用场景
      产品优势
      功能特点

      标准数仓

      融合分析业务,一体化OLAP分析场景。主要应用于金融、政企、电商、能源等领域。

      性价比高,使用场景广泛。

      支持冷热数据分析,存储、计算弹性伸缩,无限算力、无限容量等。

      支持海量数据离线处理和交互查询,数据规模大、复杂数据挖掘具有很好的性能优势。

      IoT数仓

      应用性能监控及物联网IoT等实时分析场景。主要应用于环境监测、自动驾驶、系统监控等行业。

      高效的时序计算和IoT分析能力。

      丰富的时序处理函数,支持实时和历史数据关联,内置时序算子,海量数据写入,高压缩以及多维度分析等能力。并且继承标准数仓的各种优势场景。

      千万时间线,秒级聚合,典型IoT场景下导入和查询较传统引擎提升数倍。

      IoT数仓的技术特点

      • 海量数据写入能力

        ​ 在自动驾驶汽车监测的数据每秒只采集5种测量数据(速度、温度、发动机功率、方向、坐标),1000W量汽车每秒中将会有5000W的TPS。

        ​ 在自动驾驶汽车监测的数据每秒只采集5种测量数据(速度、温度、发动机功率、方向、坐标),1000W量汽车每秒中将会有5000W的TPS。

      • 写入平稳、持续

        ​不同于传统业务场景,时序数据的产生通常以一个固定的时间频率进行采集,不受其他因素的制约,其数据生成的速度是相对平稳。

        ​不同于传统业务场景,时序数据的产生通常以一个固定的时间频率进行采集,不受其他因素的制约,其数据生成的速度是相对平稳。

      • 高压缩率

        高压缩率能够带来两方面的收益。一方面能够节省大量的硬件存储成本,节省硬盘的开销。另一方面压缩后的数据可以更容易存储到内存中,显著提高查询的性能。

        高压缩率能够带来两方面的收益。一方面能够节省大量的硬件存储成本,节省硬盘的开销。另一方面压缩后的数据可以更容易存储到内存中,显著提高查询的性能。

      • 高IO专属分布式存储
        高IO专属分布式存储

        高性能、高扩展、高可靠,适用于性能相对较高,读写速率要求高,有实时数据存储需求应用场景

        高性能、高扩展、高可靠,适用于性能相对较高,读写速率要求高,有实时数据存储需求应用场景

      • 超高IO专属分布式存储
        超高IO专属分布式存储

        低时延、高性能,适用于低时延,高读写速率要求,数据密集型应用场景

        低时延、高性能,适用于低时延,高读写速率要求,数据密集型应用场景

      • 按需扩容
        按需扩容

        可根据业务需求扩容,有效提高资源利用率

        可根据业务需求扩容,有效提高资源利用率

      • 性能线性增长
        性能线性增长

        支持在线扩容,并且性能线性增长,满足业务需求

        支持在线扩容,并且性能线性增长,满足业务需求

      • 3副本冗余
        3副本冗余

        数据持久性高达99.9999999%

        数据持久性高达99.9999999%

      • 数据加密
        数据加密

        系统盘和数据盘均支持数据加密,保护数据安全

        系统盘和数据盘均支持数据加密,保护数据安全

      • 实时写入新数据

        时序数据的写入是实时的,采集的数据反应客观信息,数据是随着时间推进不断产生,不存在旧数据更新场景。

        时序数据的写入是实时的,采集的数据反应客观信息,数据是随着时间推进不断产生,不存在旧数据更新场景。

      • 数据读取概率高

        最近时间的数据具有的价值更高,因此被读取的概率高。例如在监控场景下,最近几个小时或者几天的监控数据最可能被访问,而一个季度或者一年前的数据极少访问。

        最近时间的数据具有的价值更高,因此被读取的概率高。例如在监控场景下,最近几个小时或者几天的监控数据最可能被访问,而一个季度或者一年前的数据极少访问。

      • 多维分析

        ​时序数据来自不同个体且拥有不同属性。例如在监控场景下,通过对某个集群上每台机器的网络流量监控,可以查询分析某台机器的网络流量,也可以同时查询集群总的网络流量。

        ​时序数据来自不同个体且拥有不同属性。例如在监控场景下,通过对某个集群上每台机器的网络流量监控,可以查询分析某台机器的网络流量,也可以同时查询集群总的网络流量。

      • 自动备份
        自动备份

        预先设置好自动备份策略,实现在线自动备份

        预先设置好自动备份策略,实现在线自动备份

      • 手动备份
        手动备份

        可根据需要随时通过控制台或API,备份指定时间点的数据

        可根据需要随时通过控制台或API,备份指定时间点的数据

      • 备份恢复
        备份恢复

        支持将云硬盘恢复到您指定的任意备份时间点;可使用备份数据批量创建新的数据盘,实现业务快速部署

        支持将云硬盘恢复到您指定的任意备份时间点;可使用备份数据批量创建新的数据盘,实现业务快速部署

      • 性能数据监控
        性能数据监控

        可方便、实时地监控专属分布式存储的云硬盘读写速率及吞吐信息

        可方便、实时地监控专属分布式存储的云硬盘读写速率及吞吐信息

      • 告警规则
        告警规则

        自定义告警规则,后台自动提醒

        自定义告警规则,后台自动提醒

      • 数据共享
        数据共享

        共享云硬盘是一种支持多个云服务器并发读写访问的数据块级存储设备,具备多挂载点、高并发性、高性能、高可靠性等特点,多个云服务器可同时访问一个云硬盘,主要应用于需要支持集群、HA能力的关键企业应用场景

        共享云硬盘是一种支持多个云服务器并发读写访问的数据块级存储设备,具备多挂载点、高并发性、高性能、高可靠性等特点,多个云服务器可同时访问一个云硬盘,主要应用于需要支持集群、HA能力的关键企业应用场景

      IoT数仓的应用实例

      IoT数仓的应用实例

      • 场景一:创建时序表

        1.以发电机组的场景作为示例,创建一张存储发电机组采样数据的时序表:

        2.查询当前时间:

        3.查询默认的分区与分区边界:

      • 场景二:创建时序表(手动设置分区边界)

        1.手动指定分区边界的起始值,设置默认的分区边界时间P1为“2022-05-30 16:32:45”、P2为“2022-05-31 16:56:12”,创建时序表:

        2.查询当前时间:

        3.查询分区以及分区边界: