解决方案架构

架构简介

大数据平台

支持华为自研的FusionInsight大数据平台以及开源Apache、开源HDP/CDH、星环、苏研大数据平台

大数据组件

支持开源众多大数据组件,包括核心的Hadoop、Hbase、Spark、Hive、Flink、ElasticSearch等

编译器

JDK、GCC、LLVM等常用的大数据编译器中间件均支持鲲鹏产业生态

加速特性

支持鲲鹏指令加速Erasure Code编解码,芯片自带加解密加速器,提供算法与指令优化的KAL机器学习加速库

操作系统

支持主流的商用、开源操作系统和国产化操作系统

基础设施

提供基于华为鲲鹏处理器的TaiShan服务器,高速缓存场景支持使用SSD进行加速

解决方案优势

  • 高性能

    多核实现高并发计算,性能最高提升30%

  • 更安全

    安全加解密,数据走片内总线

  • 开放生态

    支持与不同硬件平台融合部署,实现平滑迁移

应用迁移向导
Apache
HDP
CDH
其他
01 移植
了解Apache各个组件的源码方式编译方法。
02 部署
了解Apache各个组件经过源码编译后,进行集群部署的方法
01 移植
了解CDH各个组件的源码方式编译方法。
01 移植
了解大数据相关组件的源码方式编译方法。
02 部署
了解大数据相关组件经过源码编译后,进行部署的方法。
大数据存算分离方案是使用Ceph替代Hadoop的本地HDFS作为存储方式,实现大数据计算和存储资源分离。
整个方案的机器组成如下:
1、大数据计算集群:由1个管理节点和3个计算节点组成,完成大数据计算服务。
2、Ceph存储集群:由3个存储节点组成,完成Ceph存储服务。
参考文档
大数据存算分离 部署指南(CentOS 7.6)
应用迁移向导
Apache HDP CDH 其他
  • 移植
  • 部署
了解Apache各个组件的源码方式编译方法。
  • Hadoop
  • Hbase
  • Hive
  • Spark
  • Flink
  • Kafka
  • Zookeeper
  • Druid
了解Apache各个组件经过源码编译后,进行集群部署的方法。
  • Hadoop
  • Hbase
  • Hive
  • Spark
  • Flink
  • Kafka
  • Zookeeper
  • Solr
  • Storm
  • 移植
  • 部署
  • 调优
了解HDP 3.1.0各个组件的源码方式编译方法。
  • Ambari
  • Hadoop
  • Hbase
  • Hive
  • Spark
  • Kafka
  • Atlas
  • Accumulo
  • Knox
  • Livy
  • Oozie
  • Phoenix
  • Pig
  • Ranger
  • Sqoop
  • Storm
  • Tez
  • Zeppelin
  • Zookeeper
了解HDP 3.1.0各个RPM格式的组件的集群部署方法。
  • Ambari
  • Accumulo
  • Atlas&Kafka&solr
  • Hbase&Phoenix
  • Kafka
  • Knox
  • Oozie
  • Pig
  • Ranger
  • spark&livy
  • Sqoop
  • Storm
  • Zeppelin
  • 移植
了解CDH各个组件的源码方式编译方法。
  • 移植
  • 部署
了解大数据相关组件的源码方式编译方法。
  • Redis
了解大数据相关组件经过源码编译后,进行部署的方法。
  • ElasticSearch
  • Redis
  • 大数据存算分离 部署指南
大数据存算分离方案是使用Ceph替代Hadoop的本地HDFS作为存储方式,实现大数据计算和存储资源分离。
整个方案的机器组成如下:
1、大数据计算集群:由1个管理节点和3个计算节点组成,完成大数据计算服务。
2、Ceph存储集群:由3个存储节点组成,完成Ceph存储服务。
参考文档
大数据存算分离 部署指南(CentOS 7.6)

典型业务场景

  • 离线分析

  • 实时检索

  • 实时流处理

离线分析

大数据离线分析场景

通常是指对海量数据进分析和处理,形成结果数据,供下一步数据应用使用。离线处理对处理时间要求不高,但是所处理数据量较大,占用计算存储资源较多,通常通过MR或者Spark作业或者SQL作业实现。离线分析系统架构中以HDFS分布式存储软件为数据底座,计算引擎以基于MapReduce的Hive和基于Spark的SparkSQL为主。

实时检索

大数据实时检索场景 

提供可弹性扩展、低时延、高吞吐的高性能计算资源,支持业界主流的实时分析业务平台,结合大带宽、支持多种协议的对象存储服务,提升实时分析业务整体资源利用率。

实时流处理

大数据实时流处理场景

常指对实时数据源进行快速分析,迅速触发下一步动作的场景。实时数据对分析处理速度要求极高,数据处理规模巨大,对CPU和内存要求很高,但是通常数据不落地,对存储量要求不高。实时处理,通常通过Storm、Spark Streaming或者Flink任务实现。数据采集通过分布式消息系统Kafka实时发送到分布式流计算引擎Flink、Storm、Spark Streaming进行数据处理,结果存储Redis为上层业务提供缓存。