云服务器内容精选
-
分析性能瓶颈 通过查看内存、反压等监控性能指标,确定性能下降的原因,以及瓶颈位于源端还是目的端。 图3 通过监控指标分析性能瓶颈 内存占用100% 当作业的内存占用达到100%时,意味着内存资源不足,需要扩大作业的内存配置或降低对内存的需求。 内存使用率达到100%时的实时作业监控指标: 图4 作业内存耗尽时的监控指标状态 图5 作业内存排查与调优策略 针对内存问题,优先通过增加任务配置中的并发数来解决,增加并发可减轻每个taskmanager上的内存压力。 增大并发后如果内存占用率仍比较大,可以根据不同的链路做组件级的参数调优,详情请参考各个链路的参数调优介绍,包括: 减小数据缓存的大小和时间。 加快缓存数据的flush速度。 对目的端的表结构进行优化,以提高写入性能。 增加单个taskmanager的处理内存,注意不要造成Migration资源组的资源使用率统计不准确。 对读写速率限流,适合数据量不大对作业稳定性需求较高的场景。 特殊场景: 监控指标显示内存使用率正常,但是日志中搜索到关键字OutOfMemery或OOMKilled,同样可以判断为内存不足场景。 虽然监控指标显示内存使用率正常,但日志中发现OutOfMemory或OOMKilled关键字,同样认为是内存不足。 分库分表场景下,如果源端数据库实例或分表数据过大,可能会导致jobmanager内存占用满,通过设置参数jobmanager.memory.process.size = 6G来即时扩展jobmanager节点内存。 作业持续反压100 长时间作业反压100%,表明可能是目的端写入性能瓶颈,原因可能为: 作业目的端配置或者建表不合理,性能仍有优化空间。 目的端集群压力过大。 图6 作业反压调优策略 图7 正常反压监控图 图8 作业反压持续100监控图 针对作业配置或建表不合理的场景,可以参考各个链路参数调优指导中关于目的端的介绍。 针对目的端集群压力较大的场景需要及时联系目的端数据库运维或开发者调整集群状态。 作业反压正常(binlog激增) 作业反压正常可能为源端抽取性能瓶颈,大部分场景为业务量上涨导致源端binlog激增。部分作业会存在网络问题导致数据抽取速率不足,时延上升。 源端binlog激增时的MySQ L实例 监控: 图9 binlog激增MySQL监控图-1 图10 binlog激增MySQL监控图-2 单小时内binlog文件个数增长破百。 源端binlog文件激增时,需要及时进行以下操作: 调大实时作业并发,避免目的端写入成为瓶颈,导致源端抽取压力。 调大taskmanager堆内存,避免数据量过大作业异常。 在任务配置中添加参数: taskmanager.memory.managed.fraction = 0(默认0.2) taskmanager.memory.process.size = 4G(默认不足4G) 适时将时延较大的表从实时作业中拆分出去,通过离线迁移完成大表的数据迁移。
-
初步分析与调试 图1 性能调优初步分析与调试 由于全量阶段的数据量较大,需要更高的并发资源。当全量阶段同步速率较低时,请优先通过增加任务并发来解决。全量阶段完成后,可以暂停作业回调资源。如果上述措施对提升同步效率效果不明显,可进一步分析性能瓶颈,详情请参见分析性能瓶颈部分。 当增量阶段同步速率慢或时延增加时,首先观察监控指标或作业告警中是否有作业重试。作业重试可能阻塞数据同步进程,导致时延上升,需通过查看作业日志找到并解决作业重试问题。 图2 作业监控指标显示作业近期存在重试 增量阶段如果没有作业重试但同步效率仍低,则需进一步分析性能瓶颈,详情请参见分析性能瓶颈部分。
-
DataArts智能助手常用功能 DataArts智能助手其他相关功能如下: :新建对话,同时可以清空当前会话。注意清空后原来的内容会全部清除,谨慎单击。当前版本暂不支持对话历史功能。 :关闭DataArts智能助手 :配置入口,可以进行模型配置操作。 :单击该按钮,系统自动弹出相关快捷功功能。或者输入/,也会自动弹出相关快捷功功能,跟按钮功能一样。如下图所示。 图1 快捷功能 :选择数据表,可基于数据表生成SQL :输入消息,或者先选择模型在输入消息后,按钮会亮起来,单击该按钮发送消息生成对话。 Enter:发送消息 Shift + Enter:换行 父主题: DataArts智能助手
-
快捷代码操作 目前除了“SQL生成”功能,其他均可直接与开发脚本直接交互。 示例一:以“SQL解释”功能为例,选中脚本编辑器里的代码,单击“SQL解释”,可以直接开始对话,大模型会解释选中的代码。 图1 选中SQL代码 图2 SQL解释 示例二:选中脚本编辑器里代码,在对话侧输入相关指令,也能对选中代码进行操作,以“注释代码”为例,大模型生成注释的代码。 图3 注释代码 图4 SQL查询代码注释 选中代码之后,开启对话(除了SQL生成)均会带上所选代码片段。如果不希望选中代码干扰正常对话,请先手动取消代码片段的选择,再进行对话。 父主题: DataArts智能助手和数据开发交互
-
API返回数据规格 数据服务适用于小批量数据的快速响应交互场景,不适用于将大量数据通过API的方式返回。当前通过数据服务API返回数据的规格如下表所示。 表5 API的返回数据条数限制 API分类 使用场景 数据源 默认规格(条) 配置类API 调试API DLI /MySQL/RDS/DWS 10 调用API DLI/MySQL/RDS/DWS 100 脚本类API 测试SQL - 10 调试API DLI 默认分页:100 自定义分页:1000 MySQL/RDS/DWS 默认分页:10 自定义分页:2000 调用API DLI 默认分页:100 自定义分页:1000 MySQL/RDS/DWS 默认分页:10 自定义分页:2000
-
共享版规格 数据服务共享版无具体的规格指标,在表3中给出了用户创建和使用API的相关配额说明。 如果您需要修改默认限制值,请参考如何申请扩大配额。 表3 数据服务使用限制明细 限制项 默认限制 能否修改 API分组数量 每个用户最多创建50个API分组。 √ API数量 每个用户最多创建200个API。 √ 后端策略数量 每个用户最多创建5个后端策略。 √ 应用数量 每个用户最多创建50个应用。应用配额包括用户自行创建的应用和API市场购买API生成的应用。 √ 流控策略数量 每个用户最多创建30个流控策略。 用户流量限制不超过API流量限制。 应用流量限制不超过用户流量限制。 源IP流量限制不超过API流量限制。 √ 访问控制策略数量 每个用户最多可以创建100个访问控制策略。 √ VPC通道数量 每个用户最多创建30个VPC通道。 √ 变量数量 每个分组在任意一个环境中,最多创建50个变量。 √ 弹性云服务器数量 每个VPC通道最多添加200个弹性云服务器。 √ 参数数量 每个API最多创建50个参数。 √ 发布历史数量 同一个API在每个环境中最多记录10条最新的发布历史。 √ 每个API的访问频率 不超过200次/秒。 √ 特殊应用 阈值不超过API流量限制值。 x 子 域名 访问次数 每个子域名每天最多可以访问1000次。 x 调用请求包的大小 API每次最大可以调用12M的请求包 x TLS协议 支持TLS1.1和TLS1.2,推荐使用TLS1.2。 x 实名认证 未实名认证的用户,无法进行任何的创建操作。 x
-
共享版与专享版对比 数据服务当前提供共享版与专享版两种服务方式。其中共享版数据服务即开即用但仅限于存量用户调测使用,专享版数据服务需要购买专享版集群增量包并在集群中管理API。 数据服务共享版当前仅限于华东-上海一、华北-北京四、华南-广州的存量用户调测使用,受限于服务稳定性和生命周期策略,不建议用于生产环境。 专享版数据服务常用于企业内部系统解耦,各服务部署在云上的VPC内,服务之间以RESTful API方式通信,通信链路在VPC内部进行,网络安全得到进一步保障。同时专享版实例支持前端或后端服务部署在公有网络,通过绑定弹性公网IP实现网络交互。 表1 共享版与专享版数据服务差异 差异项 共享版 专享版 计费 - 根据集群规格按包年包月计费。 按照API使用额度计费:每个工作空间具有10个API免费试用额度,超过试用配额每天每个API按1元收费。 网络访问 公网访问。 实例运行在虚拟私有云(VPC)中,在VPC内,使用实例子网地址调用API。 可通过开启公网入口与出口访问,允许外部服务调用API,及后端部署在外部网络环境中。 云市场售卖 API可在云市场公开售卖。 不支持将API上架到云市场公开售卖。 使用对象 小型用户。 物理隔离要求较低,能够开箱即用,快速实现API能力开放。 中大型用户。 专享版数据服务拥有物理隔离的独立集群, 更丰富的特性。 满足内部API调用跟API开放,独立的出、入网带宽选择。 数据服务的共享版与专享版在功能上的异同点如下表所示。 表2 共享版与专享版数据服务功能差异 规格分类 规格描述 共享版 专享版 基本功能 精细化流控策略 30个 500个 IP&用户访问控制 √ √ 安全认证 √ √ API生命周期管理 √ √ 自定义域名 √ √ Excel导入导出 √ √ 支持VPC通道 √ √ API参数编排-配置方式 √ √ API参数编排-脚本方式 √ √ API参数编排-MyBatis方式 × √ API编排 × √ 注册现有API √ × 应用管理绑定API × √ 返回总条数 × √ API分组变量管理 √ √ 高级功能 自定义认证 √ √ 创建应用 50个 1000个 支持对接API云市场 √ × 支持协议 HTTP或HTTPS HTTPS 支持API策略路由 √ √ 运维分析展示 √ √ 支持后端负载均衡 × √ 支持内部API管理 × √ 后端支持对接私有云 × √ 支持对接专线服务 × √ 性能指标 独立物理多租集群 × √ 出、入网带宽独立 × √ 推荐每秒请求次数 200TPS 8000-30000TPS
-
SQL测试 SQL测试功能主要是对指定SQL代码推荐测试方案。 SQL测试入口:单击输入框上方的后再单击“SQL测试” 以“生成一段合并两张表的语句”生成的SQL语句为例,直接复制SQL生成中的SQL语句到输入框,选择一个模型,单击右下角的击右下角的即可运行。 大模型会从测试角度分析SQL语句,对SQL进行简单分析、提出潜在问题以及改进建议,包括但不限于性能以及业务逻辑。 图1 SQL测试-图一 图2 SQL测试-图二 父主题: DataArts智能助手
-
SQL改写示例 不输入任何要求的改写 以“生成一段合并两张表的语句”生成的SQL语句为例,直接复制SQL生成示例中的SQL语句到输入框,选择一个模型,单击右下角的即可运行。 大模型会自己对输入SQL语句进行改写并提供相关改写说明,有的时候会提供多种方案,比如下图中通过保持字段一致性来提升SQL的可读性和一致性。 图1 SQL改写-图一 图2 SQL改写-图二 图3 SQL改写-图三 输入要求的改写 以“生成一段合并两张表的语句”生成的SQL语句为例,直接复制SQL生成示例中的SQL语句到输入框,但与前一个例子不同的是,加入了“请修改的简洁一些”的要求,选择一个模型,单击右下角的即可运行。 大模型会依据所提要求进行改写,很明显这次的版本SQL改写的更简洁,也提供别的方案,比如更简洁的SQL版本。 图4 按要求改写SQL-图一 图5 按要求改写SQL-图二
-
DataArts智能助手概述 该功能为白名单功能,如需使用DataArts智能助手功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 目前仅支持上海一、上海二局点申请开放使用。 DataArts智能助手可以辅助您轻松、高效地完成 数据治理 工作。 DataArts智能助手使用入口: 在数据开发界面的右侧,单击打开DataArts智能助手,开始使用DataArts智能助手。 图1 DataArts智能助手入口 DataArts智能助手当前支持的功能如下: 模型 SQL生成 快捷找表 SQL解释 SQL改写 SQL纠错 SQL注释 SQL优化 SQL测试 DataArts智能助手与数据开发的交互 新建会话 多轮会话 DataArts智能助手常用功能 父主题: DataArts智能助手
-
内置模型(对接DeepSeek) 在数据开发界面,单击打开DataArts智能助手。 单击DataArts智能助手左下方的下拉框,会展示所有的模型。其中DeepSeek-V3和DeepSeek-R1是系统内置的模型。 内置模型目前是白名单管控。该功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 图1 查看模型 选择一个内置模型后,以DeepSeek-V3为例,随机在对话框中输入“请简单介绍一下自己”,单击右下角的即可生成对话。 图2 智能问答示例 不选择任何其他功能时,大模型也可以帮助您进行一些基础问答。 同时,不选择任何模型的时候,您也可以做一些基础问答。 在选择模型以后,并且在对话框中输入提问的消息,才会显示为蓝色。 父主题: DataArts智能助手模型选择
-
SQL注释示例 以“生成一段合并两张表的语句”生成的SQL语句为例,直接复制SQL生成示例中的SQL语句到输入框,选择一个模型,单击右下角的击右下角的即可运行。 如下图,生成了一段对于代码进行说明的注释,这部分的注释内容可以放在这段代码之前进行说明,帮助看这段代码的人理解表结构、两张表的关联逻辑、输出内容的解释和注意事项。 图1 SQL注释-图一 图2 SQL注释-图二 图3 SQL注释-图三 以“查询数学成绩大于80分和英语成绩大于90的学生并按语文成绩降序排列”生成的SQL语句为例,直接复制SQL生成示例中的SQL语句到输入框,选择一个模型,单击右下角的即可运行。 图4 SQL生成示例 不同于前面的示例,这次生成的注释在代码内部也有注释,便于阅读代码的人都能清晰地了解每一步代码。 图5 SQL注释
-
SQL生成示例 “SQL生成”功能主要是根据用户指令生成SQL代码 示例一 “SQL生成”功能支持直接生成SQL,也就是不选择任何数据表。以“生成一段查询语句”为例,在对话框输入“生成一段查询语句”。单击右下角的即可运行。大模型会简单介绍一下查询语句需要有哪些组成部分(如数据库类型、表名和字段等)以及给出示例模板帮助您学习使用。 示例二 结合数据表使用“SQL生成”功能,以“生成一段合并两张表的语句”为例,在对话框输入“生成一段合并两张表的语句”,数据表是通过“快捷找表”随机选取的,选择一个模型。单击右下角的即可运行。大模型会自动生成对话,它会按照输入内容、选择表格以及指定模型生成了对应SQL语句,并有适当的说明。 图2 SQL生成示例-合并两张表
-
配置FTP/SFTP源端参数 作业中源连接为FTP/SFTP连接时,源端作业参数如表1所示。 高级属性里的参数为可选参数,默认隐藏,单击界面上的“显示高级属性”后显示。 表1 FTP/SFTP作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 源目录或文件 待迁移数据的目录或单个文件路径。文件路径支持输入多个文件(最多50个),默认以“|”分隔,也可以自定义文件分隔符,具体请参见文件列表迁移。 待迁移数据的目录,将迁移目录下的所有文件(包括所有嵌套子目录及其子文件)。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 说明: 如果配置了时间宏变量,通过 DataArts Studio 数据开发调度 CDM 迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 /ftp/a.csv|/ftp/b.txt 文件格式 指CDM以哪种格式解析数据,可选择以下格式: CS V格式:以CSV格式解析源文件,用于迁移文件到数据表的场景。 二进制格式:选择“二进制格式”时不解析文件内容直接传输,不要求文件格式必须为二进制。适用于文件到文件的原样复制。 JSON格式:以JSON格式解析源文件,一般都是用于迁移文件到数据表的场景。 说明: 当目的端为OBS数据源时,仅支持配置二进制格式。 CSV格式 JSON类型 当“文件格式”选择为“JSON格式”时,才有该参数。JSON文件中存储的JSON对象的类型,可以选择“JSON对象”或“JSON数组”。 JSON对象 记录节点 当“文件格式”选择为“JSON格式”并且“JSON类型”为“JSON对象”时,才有该参数。对该JSON节点下的数据进行解析,如果该节点对应的数据为JSON数组,那么系统会以同一模式从该数组中提取数据。多层嵌套的JSON节点以字符“.”分隔。 data.list 高级属性 使用rfc4180解析器 当“文件格式”选择为“CSV格式”时,才有该参数。是否使用rfc4180解析器解析CSV文件。 否 换行符 文件中的换行符,默认自动识别“\n”、“\r”或“\r\n”。当“文件格式”选择为“CSV格式”时,才有该参数。 \n 字段分隔符 文件中的字段分隔符,使用Tab键作为分隔符请输入“\t”。当“文件格式”选择为“CSV格式”时,才有该参数。 , 使用包围符 选择“是”时,包围符内的字段分隔符会被视为字符串值的一部分,目前CDM默认的包围符为:"。 否 使用转义符 选择“是”时,CSV数据行中的\作为转义符使用。 选择“否”时,CSV中的\作为数据不会进行转义。CSV只支持\作为转义符。 是 使用正则表达式分隔字段 选择是否使用正则表达式分隔字段,当选择“是”时,“字段分隔符”参数无效。当“文件格式”选择为“CSV格式”时,才有该参数。 是 正则表达式 当“使用正则表达式分隔字段”选择为“是”时,才有该参数。 分隔字段的正则表达式,正则表达式写法请参考正则表达式分隔半结构化文本。 ^(\d.*\d) (\w*) \[(.*)\] ([\w\.]*) (\w.*).* 首行为标题行 “文件格式”选择“CSV格式”时才有该参数。在迁移CSV文件到表时,CDM默认是全部写入,如果该参数选择“是”,CDM会将CSV文件的前N行数据作为标题行,不写入目的端的表。 是 编码类型 文件编码类型,例如:“UTF-8”或“GBK”。只有文本文件可以设置编码类型,当“文件格式”选择为“二进制格式”时,该参数值无效。 UTF-8 压缩格式 选择对应压缩格式的源文件: 无:表示传输所有格式的文件。 GZIP:表示只传输GZIP格式的文件。 ZIP:表示只传输ZIP格式的文件。 TAR.GZ:表示只传输TAR.GZ格式的文件。 无 压缩文件后缀 压缩格式非无时,显示该参数。 该参数需要解压缩的文件后缀名。当一批文件中以该值为后缀时,才会执行解压缩操作,否则保持原样传输。当输入*或为空时,所有文件都会被解压。 * 启动作业标识文件 选择是否开启作业标识文件的功能。当源端路径下存在启动作业的标识文件时才启动作业,否则会挂起等待一段时间,等待时长在下方“等待时间”中配置。 是 文件分隔符 “源目录或文件”参数中如果输入的是多个文件路径,CDM使用这里配置的文件分隔符来区分各个文件,默认为|。 | 标识文件名 选择开启作业标识文件的功能时,需要指定启动作业的标识文件名。指定文件后,只有在源端路径下存在该文件的情况下才会运行任务。该文件本身不会被迁移。 ok.txt 等待时间 选择开启作业标识文件的功能时,如果源路径下不存在启动作业的标识文件,作业挂机等待的时长,当超时后任务会失败。 等待时间设置为0时,当源端路径下不存在标识文件,任务会立即失败。 单位:秒。 10 过滤类型 满足过滤条件的路径或文件会被传输,该参数有“无”、“通配符”和“正则表达式”三种选择。具体使用方法可参见文件增量迁移。 无 目录过滤器 “过滤类型”选择“通配符”和“正则表达式”时,符合过滤器规则的目录,允许进行迁移。支持配置多个路径,中间使用“,”分隔。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 *input,*out 文件过滤器 “过滤类型”选择“通配符”和“正则表达式”时,符合过滤器规则的文件,允许进行迁移。支持配置多个文件,中间使用“,”分隔。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 *.csv 时间过滤 选择“是”时,可以根据文件的修改时间选择性地传输文件。 是 起始时间 “时间过滤”选择“是”时,可以指定一个时间值,当文件的修改时间大于等于该时间才会被传输,输入的时间格式需为“yyyy-MM-dd HH:mm:ss”。 该参数支持配置为时间宏变量,例如${timestamp(dateformat(yyyy-MM-dd HH:mm:ss,-90,DAY))}表示:只迁移最近90天内的文件。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 2019-07-01 00:00:00 终止时间 “时间过滤”选择“是”时,可以指定一个时间值,当文件的修改时间小于该时间才会被传输,输入的时间格式需为“yyyy-MM-dd HH:mm:ss”。 该参数支持配置为时间宏变量,例如${timestamp(dateformat(yyyy-MM-dd HH:mm:ss))}表示:只迁移修改时间为当前时间以前的文件。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 2019-07-30 00:00:00 忽略不存在原路径/文件 如果将其设为“是”,那么作业在源路径不存在的情况下也能成功执行。 否 标识文件类型 选择开启作业标识文件的功能时,该参数才显示。 MARK_DONE:只有在源端路径下存在标识文件的情况下才会执行迁移任务。 MARK_DOING:只有在源端路径下不存在标识文件的情况下才会执行迁移任务。 MARK_DOING 是否跳过空行 “文件格式”选择“CSV格式”时,该参数才显示。 如果某行数据为空,则跳过此行。 否 null值 “文件格式”选择“二进制格式”时,该参数才显示。 由于文本文件中无法用字符串定义null值,此配置项定义将何种字符串标识为null。 否 MD5文件名后缀 “文件格式”选择“二进制格式”时,该参数才显示。 校验CDM抽取的文件,是否与源文件一致,详细请参见MD5校验文件一致性。 .md5 父主题: 配置CDM作业源端参数
-
删除维度 如果您已不再需要某个维度,可以删除该维度。如果待删除的维度已发布,则无法执行删除操作,您必须先将该维度下线后,才能执行删除操作,具体操作请参见下线维度。 在数据架构控制台,单击左侧导航树中的“维度建模”,进入相应页面后,选择“维度”页签。 在维度列表中找到需要删除的维度,勾选该维度,然后单击维度列表上方“更多”中的“删除”按钮。 在系统弹出的“删除”对话框中,确认无误后,单击“确定”将维度删除。 删除弹框中的“删除物理表”勾选后,删除时将同步删除数据库里的物理表。