大数据集群是一个整体的概念,相当于计算机系统,可以连接很多方面,现在技术人员都比较重视大数据集群。大数据集群是什么?大数据集群上线方案涉及哪些方面?下面小编就来给大家详细介绍下吧。
一、什么是大数据?
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
二、大数据集群是什么意思?
计算机集群简称集群是一种计算机系统, 它通过一组松散集成的计算机软件/硬件连接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看作是一台计算机。集群系统中的单个计算机通常称为节点,通常通过局域网连接,但也有其它的可能连接方式。集群计算机通常用来改进单个计算机的计算速度和/或可靠性。一般情况下集群计算机比单个计算机,比如工作站或超级计算机性能价格比要高得多。
三、大数据集群上线方案涉及哪些方面?
硬件的部署
在此集群部署中,借助了比较成熟的硬件部署工具 Extreme Cloud Administration Toolkit (xCAT), xCAT 是一个开源的集群管理工具,能用于裸机部署,
xCAT 可以自动发现硬件,开机之后,可以由 xCAT 从裸机自动引导安装,当然,也可以提前导入 client node 信息,xCAT 可以基于 IPMI 进行远程硬件控制,如开关机,如收集 CPU 的温度等状态信息,支持 X86_64、POWER、System Z 等硬件类型。
支持的目前所有主流的操作系统,如 RHEL,CentOS, Fedora, Ubuntu, AIX, Windows, SLES, Debian 等。xCAT 各个组件的结构和流程如下图所示。在 xCAT 部署的集群中,主要有三种 Node: 管理节点(Management Node)、服务节点(Service Node)、计算节点(Compute Node),如果并非特别大的集群,一般情况下,服务会被省略掉,只有管理节点和计算节点。管理节点上启动 DHCPD、tftpd、httpd、DNS、ntpd、syslogd、DB 等服务。
软件的部署
软件部署主要在集群已经建立完成的基础上,并行在各个节点上安装大数据分析处理系统,在”资源管理和大数据集群”层,部署 Spark Cluster,并和 Platform EGO 深度集成,一些管理和监控等方面的程序也相继安装。还有,在提交应用之前,需要先创建 SIG(Spark Instance Group),并启动 SIG,在创建 SIG 之后,也为 Platform EGO 来管理和控制其相关的服务。
高可用性(HA)部署
通常有三个节点构成,分别为主管理节点 Management Node 1(MN1)、次管理节点 Management Node 2(MN2)和第三管理节点 Management Node 3(MN3)。但是需要说明的是,在 failover 切换的过程中,必须保证 MN1 和 MN2 其中一个健在,因为 MN3 只是负责 IBM Spectrum Scale 的 HA 过程,主要的服务和进程只运行在 MN1 和 MN2 上,在这二者之间进行切换。
大数据集群是什么?大数据集群上线方案涉及哪些方面?看完上文的介绍,大家对于大数据集群的概念比较清晰了,大数据集群整体部署涉及到几个方面,大家可以关注下。