华为云首页用户手册

MapReduce服务 MRS-Java:Spark SQL常用接口

MapReduce服务 MRS-Java:Spark SQL常用接口

时间：2023-11-01 16:19:48

MapReduce服务 MRS

Spark SQL常用接口

Spark SQL中重要的类有：

SQLContext：是Spark SQL功能和DataFrame的主入口。
DataFrame：是一个以命名列方式组织的分布式数据集
DataFrameReader：从外部存储系统加载DataFrame的接口。
DataFrameStatFunctions：实现DataFrame的统计功能。
UserDefinedFunction：用户自定义的函数。

常见的Actions方法有：

表6 Spark SQL方法介绍
方法	说明
Row[] collect()	返回一个数组，包含DataFrame的所有列。
long count()	返回DataFrame的行数。
DataFrame describe(java.lang.String... cols)	计算统计信息，包含计数，平均值，标准差，最小值和最大值。
Row first()	返回第一行。
Row[] head(int n)	返回前n行。
void show()	用表格形式显示DataFrame的前20行。
Row[] take(int n)	返回DataFrame中的前n行。

表7 基本的DataFrame Functions介绍
方法	说明
void explain(boolean extended)	打印出SQL语句的逻辑计划和物理计划。
void printSchema()	打印schema信息到控制台。
registerTempTable	将DataFrame注册为一张临时表，其周期和SQLContext绑定在一起。
DataFrame toDF(java.lang.String... colNames)	返回一个列重命名的DataFrame。
DataFrame sort(java.lang.String sortCol,java.lang.String... sortCols)	根据不同的列，按照升序或者降序排序。
GroupedData rollup(Column... cols)	对当前的DataFrame特定列进行多维度的回滚操作。

上一篇：MapReduce服务 MRS-执行Spark Core应用，尝试收集大量数据到Driver端，当Driver端内存不足时，应用挂起不退出:问题

下一篇：MapReduce服务 MRS-使用IBM JDK产生异常，提示“Problem performing GSS wrap”信息:回答

MapReduce服务 MRS-Java:Spark SQL常用接口

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题