华为云首页用户手册

MapReduce服务 MRS-Python:SparkSQL常用接口

MapReduce服务 MRS-Python:SparkSQL常用接口

时间：2023-11-01 16:19:48

MapReduce服务 MRS

SparkSQL常用接口

Spark SQL中在Python中重要的类有：

pyspark.sql.SQLContext：是Spark SQL功能和DataFrame的主入口。
pyspark.sql.DataFrame：是一个以命名列方式组织的分布式数据集。
pyspark.sql.HiveContext：获取存储在Hive中数据的主入口。
pyspark.sql.DataFrameStatFunctions：统计功能中一些函数。
pyspark.sql.functions：DataFrame中内嵌的函数。
pyspark.sql.Window：sql中提供窗口功能。

表4 Spark SQL常用的Action
方法	说明
collect()	返回一个数组，包含DataFrame的所有列。
count()	返回DataFrame中的行数。
describe()	计算统计信息，包含计数，平均值，标准差，最小值和最大值。
first()	返回第一行。
head(n)	返回前n行。
show()	用表格形式显示DataFrame。
take(num)	返回DataFrame中的前num行。

表5 基本的DataFrame Functions
方法	说明
explain()	打印出SQL语句的逻辑计划和物理计划。
printSchema()	打印schema信息到控制台。
registerTempTable(name)	将DataFrame注册为一张临时表，命名为name，其周期和SQLContext绑定在一起。
toDF()	返回一个列重命名的DataFrame。

上一篇：MapReduce服务 MRS-Python:Spark Streaming常用接口

下一篇：MapReduce服务 MRS-Python:Spark Streaming常用接口

MapReduce服务 MRS-Python:SparkSQL常用接口

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题