对象标识符类型 DataArtsFabric SQL在内部使用对象标识符(OID)作为各种系统表的主键。系统不会给用户创建的表增加一个OID系统字段,OID类型代表一个对象标识符。 目前OID类型用一个四字节的无符号整数实现。因此不建议在创建的表中使用OID字段做主键。 表1 对象标识符类型
约束限制 Python UDF即使用Python语言编写的自定义函数,当DataArtsFabric SQL提供的内置函数无法支撑客户的业务实现时, 客户可以参考本文中的开发流程及使用示例,自行编写代码逻辑创建Python UDF,以满足多样化业务需求。 使用Python Scalar
比较操作符 比较操作符可用于所有相关的数据类型,并返回布尔类型数值。 所有比较操作符都是双目操作符,被比较的两个数据类型必须是相同的数据类型或者是可以进行隐式转换的类型。例如1<2<3这样的表达式为非法的,因为布尔值和3之间不能做比较。 DataArtsFabric SQL提供的比较操作符请参见表
DML语法一览表 DML(Data Manipulation Language数据操作语言),用于对数据库表中的数据进行操作。如:插入、更新、查询、删除。 插入数据 插入数据是往数据库表中添加一条或多条记录,请参考INSERT。 查询数据 数据库查询语句SELECT是用于在数据库中检索适合条件的信息
查询vpcep客户端详情 功能介绍 查询接入端详情。用户可以查看接入端的详情。此接口为同步接口,无配套使用接口和特殊场景。 URI GET /v1/access-clients/{client_id} 表1 路径参数 参数 是否必选 参数类型 描述 client_id 是 String
查询工作空间列表 功能介绍 列举工作空间列表。用户可通过该接口获取符合过滤条件的工作空间列表,接口支持分页查询、支持通过名称、ID和企业项目ID查询。返回为符合过滤条件的工作空间列表。此接口为同步接口,无配套使用接口和特殊场景。 URI GET /v1/workspaces 表1
使用Tableau访问DataArtsFabric SQL Tableau是业界流行的BI工具。对于关系数据库,可以使用JDBC API通过JDBC驱动程序与数据库交互。 获取Tableau 您可以通过Tableau官方网站 ,获取最新版本的Tableau。 使用JDBC对接DataArtsFabric
DataArtsFabric DataFrame概述 场景介绍 本章节提供了类Pandas的Python DataFrame SDK,方便用户使用Python编写数据处理作业;同时利用DataArtsFabric SQL内核高效的计算能力,为数据科学家、AI工程师等提供了易用、高效的数据处理能力
处理XML 为了处理数据类型XML的值,DataArtsFabric SQL提供了函数xpath和xpath_exists计算XPath表达式以及XMLTABLE表函数。 xpath(xpath, xml [, nsarray]) 描述:它返回一个XML值的数组对应xpath表达式所产生的节点集
产生XML内容 本节函数和类函数的表达式可以用来从SQL数据产生XML内容。适用于将查询结果格式化成XML文档以便于在客户端应用中处理。 XMLPARSE ( { DOCUMENT | CONTENT } value) 描述:从字符数据中生成一个XML类型的值。 返回值类型:xml
简单表达式 逻辑表达式 逻辑表达式的操作符和运算规则,请参见逻辑操作符。 比较表达式 常用的比较操作符,请参见比较操作符。 除比较操作符外,还可以使用以下句式结构: BETWEEN操作符 a BETWEEN x AND y等效于a >= x AND a <= y a NOT BETWEEN
示例:常用操作 以下演示基于JDBC开发的主要步骤。 涉及创建数据库、创建表、插入数据等。 代码示例 此示例将演示如何基于DataArtsFabric SQL提供的JDBC接口开发应用程序。 1 2 3 4 5 6 7 8 9 10 11
SQL语句改写规则 根据数据库的SQL执行机制以及大量的实践,总结发现:通过一定的规则调整SQL语句,在保证结果正确的基础上,能够提高SQL执行效率。如果遵守下列规则,能够大幅度提升业务查询效率。 使用union all代替union union在合并两个集合时会执行去重操作,而union
开发注意事项 DataArtsFabric SQL提供了三种注册UDF的方式:ibis-fabric SDK显示注册、隐式注册以及SQL的DDL注册,推荐用户使用ibis-fabric sdk显示注册,该方式有以下两个优势: SDK提供的注册接口已完全遵守DataArtsFabric
SDK方法介绍 创建Session 功能介绍 Session表示一个连接,用户可以通过一个Session执行SQL请求,并通过该Session查询请求结果。该方法可以通过用户提供的工作空间ID和端点ID同步创建一个Session,可以设置Session连接的lakeformation
子查询表达式 子查询表达式主要有以下几种: EXISTS/NOT EXISTS EXISTS/NOT EXISTS的语法图请参见图1。 图1 EXISTS/NOT EXISTS::= EXISTS的参数是一个任意的SELECT语句,或者说子查询。系统对子查询进行运算以判断它是否返回行
条件表达式 在执行SQL语句时,可通过条件表达式筛选出符合条件的数据。 条件表达式主要有以下几种: CASE CASE表达式是条件表达式,类似于其他编程语言中的CASE语句。 CASE表达式的语法图请参考图1。 图1 case::= CASE子句可以用于合法的表达式中。condition
模式匹配操作符 数据库提供了三种实现模式匹配的方法:SQL LIKE操作符、SIMILAR TO操作符和POSIX-风格的正则表达式。除了这些基本的操作符外,还有一些函数可用于提取或替换匹配子串并在匹配位置分离一个串。 LIKE 判断字符串是否能匹配上LIKE后的模式字符串。如果字符串与提供的模式匹配
自适应并行 场景描述 在AI数据工程中,面对大量数据处理的场景,需要通过并行调用actor来提升数据处理的效率,进行分布式计算。但固定并行度依赖于调参经验以及多次测试反馈,为提升用户体验和减少调参时间,提供自适应并行来提高使用UDF的易用度。 约束限制 功能约束限制如下: 执行UDF
数据类型映射 Python和DataArtsFabric SQL数据类型的映射关系如下表所示: 表1 Python和DataArtsFabric SQL数据类型的映射关系 Python类型 DataArtsFabric SQL类型 int BIGINT bool BOOLEAN float