云服务器内容精选

  • 使用须知 如果导出数据时未勾选“生成单表文件”,则导出的数据文件后缀为“.zip”格式,此格式的数据文件暂不支持直接导入,需要解压后才可再次导入。 如果导出数据时勾选了“生成单表文件”,则导出的数据文件为每个单表的数据文件(“.sql”或者“.csv”格式),该情况下导出的数据文件可直接再次导入。 如果导出的MySQL 8.0实例表数量超过10万(5.7和5.6版本超过1万)时,使用导出数据库功能会报错表数量过多,无法导出数据。此时请使用导出SQL结果集功能。
  • 使用须知 如果导出数据时未勾选“生成单表文件”,则导出的数据文件后缀为“.zip”格式,此格式的数据文件暂不支持直接导入,需要解压后才可再次导入。 如果导出数据时勾选了“生成单表文件”,则导出的数据文件为每个单表的数据文件(“.sql”或者“.csv”格式),该情况下导出的数据文件可直接再次导入。 如果导出的MySQL 8.0实例表数量超过10万(5.7和5.6版本超过1万)时,使用导出数据库功能会报错表数量过多,无法导出数据。此时请使用导出SQL结果集功能。
  • 使用须知 如果导出数据时未勾选“生成单表文件”,则导出的数据文件后缀为“.zip”格式,此格式的数据文件暂不支持直接导入,需要解压后才可再次导入。 如果导出数据时勾选了“生成单表文件”,则导出的数据文件为每个单表的数据文件(“.sql”或者“.csv”格式),该情况下导出的数据文件可直接再次导入。 如果导出的Microsoft SQL Server实例表数量超过1万时,使用导出数据库功能会报错表数量过多,无法导出数据。此时请使用导出SQL结果集功能。
  • 使用须知 如果导出数据时未勾选“生成单表文件”,则导出的数据文件后缀为“.zip”格式,此格式的数据文件暂不支持直接导入,需要解压后才可再次导入。 如果导出数据时勾选了“生成单表文件”,则导出的数据文件为每个单表的数据文件(“.sql”或者“.csv”格式),该情况下导出的数据文件可直接再次导入。 如果导出的PostgreSQL实例表数量超过10万时,使用导出数据库功能会报错表数量过多,无法导出数据。此时请使用导出SQL结果集功能。
  • 使用须知 如果导出数据时未勾选“生成单表文件”,则导出的数据文件后缀为“.zip”格式,此格式的数据文件暂不支持直接导入,需要解压后才可再次导入。 如果导出数据时勾选了“生成单表文件”,则导出的数据文件为每个单表的数据文件(“.sql”或者“.csv”格式),该情况下导出的数据文件可直接再次导入。 如果导出的实例表数量超过1万时,使用导出数据库功能会报错表数量过多,无法导出数据。此时请使用导出SQL结果集功能。
  • 使用须知 如果导出数据时未勾选“生成单表文件”,则导出的数据文件后缀为“.zip”格式,此格式的数据文件暂不支持直接导入,需要解压后才可再次导入。 如果导出数据时勾选了“生成单表文件”,则导出的数据文件为每个单表的数据文件(“.sql”或者“.csv”格式),该情况下导出的数据文件可直接再次导入。 如果导出的MySQL 8.0实例表数量超过10万(5.7和5.6版本超过1万)时,使用导出数据库功能会报错表数量过多,无法导出数据。此时请使用导出SQL结果集功能。
  • 响应示例 状态码: 200 OK { "count" : 2, "versions" : [ { "task_version_id" : "qSaudx2sbPvthHygckA", "task_id" : "kM7j9TSa611ZzBThzSr", "version_name" : "V002", "description" : "", "status" : 0, "create_time" : 1606377874450, "inputs" : [ { "type" : "DATASET", "source" : "PYc9H2HGv5BJNwBGXyK", "version_id" : "Osc8SZ7TZStiRV4vYkZ", "name" : "dataset-test", "version_name" : "V0010" } ], "work_path" : { "type" : "DATASET", "path" : "PYc9H2HGv5BJNwBGXyK", "name" : "dataset-test", "version_name" : "V0011", "output_path" : "/test-obs/classify/output/qSaudx2sbPvthHygckA/" }, "template" : { "id" : "sys_data_validation", "name" : "name to translate", "operator_params" : [ { "name" : "MetaValidation", "advanced_params_switch" : false, "params" : { "task_type" : "image_classification", "dataset_type" : "manifest", "source_service" : "select", "filter_func" : "data_validation_select", "image_max_width" : "1920", "image_max_height" : "1920", "total_status" : "[0,1,2]" } } ] }, "duration_seconds" : 151 }, { "task_version_id" : "YHFWU18zXuNbqxtzegG", "task_id" : "kM7j9TSa611ZzBThzSr", "version_name" : "V001", "description" : "", "status" : 2, "create_time" : 1606375407276, "inputs" : [ { "type" : "DATASET", "source" : "PYc9H2HGv5BJNwBGXyK", "version_id" : "yoJ5ssClpNlOrsjjFDa", "name" : "dataset-test", "version_name" : "V009" } ], "work_path" : { "type" : "DATASET", "path" : "PYc9H2HGv5BJNwBGXyK", "name" : "dataset-test", "version_id" : "Osc8SZ7TZStiRV4vYkZ", "version_name" : "V0010", "output_path" : "/test-obs/classify/output/YHFWU18zXuNbqxtzegG/" }, "template" : { "id" : "sys_data_validation", "name" : "name to translate", "operator_params" : [ { "name" : "MetaValidation", "advanced_params_switch" : false, "params" : { "task_type" : "image_classification", "dataset_type" : "manifest", "source_service" : "select", "filter_func" : "data_validation_select", "image_max_width" : "1920", "image_max_height" : "1920", "total_status" : "[0,1,2]" } } ] }, "duration_seconds" : 812, "origin_sample_count" : 18, "add_sample_count" : 0, "modified_sample_count" : 0, "unmodified_sample_count" : 18, "deleted_sample_count" : 0 } ] }
  • URI GET /v2/{project_id}/processor-tasks/{task_id}/versions 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 task_id 是 String 数据处理任务ID。 表2 Query参数 参数 是否必选 参数类型 描述 limit 否 Integer 指定每一页返回的最大条目数,取值范围[1,100],默认为100。 offset 否 Integer 分页列表的起始页,默认为0。 order 否 String 指定查询的排序顺序。可选值如下: asc:递增排序 desc:递减排序(默认值) sort_by 否 String 指定查询的排序方式。可选值如下: create_time:按创建时间排序(默认值) version_name:按任务版本名称排序
  • 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 items Array of ProcessorTaskItem objects 算法类别的列表。 total Integer 总数。 表4 ProcessorTaskItem 参数 参数类型 描述 label_en String 算法类别的英文名称。 label_zh String 算法类别名称。 template_id String 算法类别的ID。
  • 响应示例 状态码: 200 OK { "total" : 4, "items" : [ { "template_id" : "sys_data_cleaning", "label_zh" : "label_zh to translate", "label_en" : "data cleaning" }, { "template_id" : "sys_data_validation", "label_zh" : "label_zh to translate", "label_en" : "data validation" }, { "template_id" : "sys_data_selection", "label_zh" : "label_zh to translate", "label_en" : "data selection" }, { "template_id" : "sys_data_augmentation", "label_zh" : "label_zh to translate", "label_en" : "data augmentation" } ] }
  • URI GET /v2/{project_id}/processor-tasks/items 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 offset 否 Integer 分页列表的起始页,默认为0。 limit 否 Integer 指定每一页返回的最大条目数,取值范围[1,1000],默认为1000。
  • 按合约查询团队收发的合约 登录交换数据空间官网。 单击“管理控制台”,进入交换数据空间控制台界面。 单击“我的空间”,在交换数据空间实例中,选择实例,单击实例卡片上的“连接器”。 然后选择连接器,单击连接器卡片上的“前往”,进入连接器控制台界面。 选择界面左侧导航栏中的“数据目录”,选择“团队数据”,进入“我的团队”页面。 在“我的团队”页面找到需要查询团队收发合约的团队卡片,单击团队卡片上的“团队收发”,进入团队收发的合约页面。 单击界面中的“按合约”,即可看到按合约展示的团队收发合约。 单击合约右上角“消息”,支持输入留言信息,并查看交换方与接收方之前的留言消息。 单击合约下的批次名称,查看该批次下的数据信息及批次信息。
  • 按交换方查询团队收发的合约 登录交换数据空间官网。 单击“管理控制台”,进入交换数据空间控制台界面。 单击“我的空间”,在交换数据空间实例中,选择实例,单击实例卡片上的“连接器”。 然后选择连接器,单击连接器卡片上的“前往”,进入连接器控制台界面。 选择界面左侧导航栏中的“数据目录”,选择“团队数据”,进入“我的团队”页面。 在“我的团队”页面找到需要查询团队收发合约的团队卡片,单击团队卡片上的“团队收发”,进入团队收发的合约页面。 单击界面中的“按交换方”,即可看到按交换方展示的团队收发合约。 单击合约操作列“详情”,查看合约详情信息,在合约详情页面,单击“全部消息”页签,支持输入留言信息,并查看交换方与接收方之前的留言消息。
  • Clustering架构 Hudi通过其写入客户端API提供了不同的操作,如insert/upsert/bulk_insert来将数据写入Hudi表。为了能够在文件大小和入湖速度之间进行权衡,Hudi提供了一个hoodie.parquet.small.file.limit配置来设置最小文件大小。用户可以将该配置设置为“0”,以强制新数据写入新的文件组,或设置为更高的值以确保新数据被“填充”到现有小的文件组中,直到达到指定大小为止,但其会增加摄取延迟。 为能够支持快速摄取的同时不影响查询性能,引入了Clustering服务来重写数据以优化Hudi数据湖文件的布局。 Clustering服务可以异步或同步运行,Clustering会添加了一种新的REPLACE操作类型,该操作类型将在Hudi元数据时间轴中标记Clustering操作。 Clustering服务基于Hudi的MVCC设计,允许继续插入新数据,而Clustering操作在后台运行以重新格式化数据布局,从而确保并发读写者之间的快照隔离。 总体而言Clustering分为两个部分: 调度Clustering:使用可插拔的Clustering策略创建Clustering计划。 识别符合Clustering条件的文件:根据所选的Clustering策略,调度逻辑将识别符合Clustering条件的文件。 根据特定条件对符合Clustering条件的文件进行分组。每个组的数据大小应为targetFileSize的倍数。分组是计划中定义的"策略"的一部分。此外还有一个选项可以限制组大小,以改善并行性并避免混排大量数据。 将Clustering计划以avro元数据格式保存到时间线。 执行Clustering:使用执行策略处理计划以创建新文件并替换旧文件。 读取Clustering计划,并获得ClusteringGroups,其标记了需要进行Clustering的文件组。 对于每个组使用strategyParams实例化适当的策略类(例如:sortColumns),然后应用该策略重写数据。 创建一个REPLACE提交,并更新HoodieReplaceCommitMetadata中的元数据。
  • 操作步骤 登录华为云管理控制台,鼠标指向页面右上角的用户名,在下拉列表中单击“我的凭证”。 图1 我的凭证入口 在“我的凭证”页面中选择“访问密钥”页签。单击“新增访问密钥”,按操作指引获取认证账账号的AK/SK,请妥善保管AK/SK信息。 图2 访问密钥 每个用户仅允许新增两个访问密钥。 为保证访问密钥的安全,访问密钥仅在初次生成时自动下载,后续不可再次通过管理控制台页面获取。请在生成后妥善保管。