MapReduce服务 MRS-Java:Spark SQL常用接口
Spark SQL常用接口
Spark SQL中重要的类有:
- SQLContext:是Spark SQL功能和DataFrame的主入口。
- DataFrame:是一个以命名列方式组织的分布式数据集
- DataFrameReader:从外部存储系统加载DataFrame的接口。
- DataFrameStatFunctions:实现DataFrame的统计功能。
- UserDefinedFunction:用户自定义的函数。
常见的Actions方法有:
方法 |
说明 |
---|---|
Row[] collect() |
返回一个数组,包含DataFrame的所有列。 |
long count() |
返回DataFrame的行数。 |
DataFrame describe(java.lang.String... cols) |
计算统计信息,包含计数,平均值,标准差,最小值和最大值。 |
Row first() |
返回第一行。 |
Row[] head(int n) |
返回前n行。 |
void show() |
用表格形式显示DataFrame的前20行。 |
Row[] take(int n) |
返回DataFrame中的前n行。 |
方法 |
说明 |
---|---|
void explain(boolean extended) |
打印出SQL语句的逻辑计划和物理计划。 |
void printSchema() |
打印schema信息到控制台。 |
registerTempTable |
将DataFrame注册为一张临时表,其周期和SQLContext绑定在一起。 |
DataFrame toDF(java.lang.String... colNames) |
返回一个列重命名的DataFrame。 |
DataFrame sort(java.lang.String sortCol,java.lang.String... sortCols) |
根据不同的列,按照升序或者降序排序。 |
GroupedData rollup(Column... cols) |
对当前的DataFrame特定列进行多维度的回滚操作。 |
- GaussDB(DWS)常用SQL_常用SQL命令_SQL语法
- 什么是Spark SQL作业_数据湖探索DLISpark SQL作业
- 什么是Spark_如何使用Spark_Spark的功能是什么
- MapReduce服务_什么是Hue_如何使用Hue
- Hudi服务_什么是Hudi_如何使用Hudi
- MapReduce工作原理_MapReduce是什么意思_MapReduce流程_MRS_华为云
- MapReduce服务_什么是存算分离_如何配置MRS集群存算分离
- MapReduce服务_什么是HetuEngine_如何使用HetuEngine
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- 大数据应用范围有哪些_大数据技术与应用要学习什么课程