MapReduce服务 MRS-Python:SparkSQL常用接口
SparkSQL常用接口
Spark SQL中在Python中重要的类有:
- pyspark.sql.SQLContext:是Spark SQL功能和DataFrame的主入口。
- pyspark.sql.DataFrame:是一个以命名列方式组织的分布式数据集。
- pyspark.sql.HiveContext:获取存储在Hive中数据的主入口。
- pyspark.sql.DataFrameStatFunctions:统计功能中一些函数。
- pyspark.sql.functions:DataFrame中内嵌的函数。
- pyspark.sql.Window:sql中提供窗口功能。
方法 |
说明 |
---|---|
collect() |
返回一个数组,包含DataFrame的所有列。 |
count() |
返回DataFrame中的行数。 |
describe() |
计算统计信息,包含计数,平均值,标准差,最小值和最大值。 |
first() |
返回第一行。 |
head(n) |
返回前n行。 |
show() |
用表格形式显示DataFrame。 |
take(num) |
返回DataFrame中的前num行。 |
方法 |
说明 |
---|---|
explain() |
打印出SQL语句的逻辑计划和物理计划。 |
printSchema() |
打印schema信息到控制台。 |
registerTempTable(name) |
将DataFrame注册为一张临时表,命名为name,其周期和SQLContext绑定在一起。 |
toDF() |
返回一个列重命名的DataFrame。 |
- 什么是Spark_如何使用Spark_Spark的功能是什么
- MapReduce工作原理_MapReduce是什么意思_MapReduce流程_MRS_华为云
- GaussDB(DWS)常用SQL_常用SQL命令_SQL语法
- MapReduce服务_什么是MapReduce服务_什么是HBase
- 身份证OCR接口_文字识别接口_免费OCR接口_文字识别
- Hudi服务_什么是Hudi_如何使用Hudi
- 如何搭建基因测序平台_基因数据怎么存储_基因测序数据上云
- GaussDB常用概念_产品介绍_高斯数据库常用概念-华为云
- ocr文字识别接口_ocr识别api_OCR接口
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用