-
最佳实践 - 表格存储服务 CloudTable
Aggregate模型可以通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量,非常适合有固定模式的报表类查询场景。但是该模型对count( * ) 查询很不友好。同时因为固定了Value列上的聚合方式,在进行其他类型的聚合查询时,需要考虑语意正确性。
-
分桶 - 表格存储服务 CloudTable
如果一个查询条件不包含所有分桶列的等值条件,那么该查询会触发所有分桶同时扫描,这样查询的吞吐会增加,单个查询的延迟随之降低。这个方式适合大吞吐低并发的查询场景。 如果仅选择一个或少数分桶列,则对应的点查询可以仅触发一个分桶扫描。
-
HBase Shell命令简介 - 表格存储服务 CloudTable
执行“scan”命令扫描表,扫描时需要指定表的名称,即可以全表扫描,也可以指定范围扫描。
-
最佳实践 - 表格存储服务 CloudTable
当表的分桶模式被设置为RANDOM时,因为没有分桶列,无法根据分桶列的值仅对几个分桶查询,对表进行查询的时候将对命中分区的全部分桶同时扫描,该设置适合对表数据整体的聚合查询分析而不适合高并发的点查询。
-
冷热分离命令简介 - 表格存储服务 CloudTable
在查询客户所有记录等信息的范围查询中,CloudTable可以扫描热存储和冷存储中的数据。查询结果将根据数据行按写入表时的时间戳降序返回。在大多数情况下,热数据出现在冷数据之前。
-
数据模型 - 表格存储服务 CloudTable
也就是说,在count( * ) 查询中,Doris必须扫描所有的AGGREGATE KEY列(这里就是user_id 和 date),并且聚合后,才能得到语意正确的结果。当聚合列非常多时,count( * )查询需要扫描大量的数据。
-
Doris集群管理 - 表格存储服务 CloudTable
产品优势 性能优异:自带高效的列式存储引擎,减少数据扫描量的同时还实现了超高的数据压缩比例。同时Doris还提供了丰富的索引结构来加速数据读取与过滤,利用分区分桶裁剪功能,Doris可以支持在线服务业务的超高并发,单节点最高可支持上千QPS。
-
Doris组件使用规范 - 表格存储服务 CloudTable
【强制】分桶的列不要设置太多,一般情况下1或2个列,同时需要兼顾数据分布均匀和查询吞吐之间的均衡,考虑数据均匀是为了避免某些桶的数据存在倾斜影响数据均衡和查询效率,考虑查询吞吐是为了利用查询SQL的分桶剪裁优化避免全桶扫描提升查询性能,所以优先考虑那些数据较为均匀且常用于查询条件的列适合做分桶列
-
Broker Load - 表格存储服务 CloudTable
根据当前BE的个数和原始文件的大小修改单个BE的最大扫描量和最大并发数。 修改fe配置项。 max_broker_concurrency=BE个数。 当前导入任务单个BE处理的数据量=原始文件大小/max_broker_concurrency。