云服务器内容精选

  • Step1 运行预置算链 单击资产浏览图标,选择“算链”,单击展开,找到预置算链“销售销量训练”,如图1所示。 图1 预置算链 双击打开销售销量训练,并选择Kernel PySpark-2.4.5。 保存模型结点将训练完成的模型保存到本地默认位置,用于进行销售销量预测。您也可以右键该节点选择“参数设置”,如图2所示。在页面右侧自行设置模型路径,指定存储位置,如图3所示为默认存储路径“./output_model/sales_model”。 图2 右键设置参数 图3 设置保存模型参数 单击导航栏运行算链,如图4所示。运行过程需要几分钟,请耐心等待。当所有节点都变为绿色,表示算链运行成功,如图5所示。 图4 单击运行 图5 训练算链运行成功 当算链运行完毕后,选中任意节点,右键选择“展示运行结果”,查看该节点的运行结果,如图6所示。 如果无运行结果,如图7所示;如果有运行结果,如图8所示,例如模型应用节点和回归评估节点。 图6 右键选择展示运行结果 图7 无运行结果 图8 有运行结果
  • 参数说明 参数 子参数 参数说明 DLI_database - 用户的目标DLI数据库名称 DLI_table - 用户的目标DLI数据库中目标DLI外表或要新建DLI外表的名称 file_format - DLI外表使用的数据格式 mode - 数据的写入类型(追加或覆盖,默认为覆盖模式)。使用PySpark insertInto函数,因此追加或者覆盖都要保证特征列数量和顺序一致 OBS_path - 用户目标DLI外表的OBS存储路径
  • 样例 inputs = { "dataframe": None # @input {"label":"dataframe","type":"DataFrame"} } params = { "inputs": inputs, "DLI_database": None, # @param {"label":"DLI_database","type":"string","required":"true","helpTip":""} "DLI_table": None, # @param {"label":"DLI_table","type":"string","required":"true","helpTip":""} "file_format": "parquet", # @param {"label":"file_format","type":"enum","options":"orc,parquet,json,csv,carbon,avro","required":"true","helpTip":""} "mode": "overwrite", # @param {"label":"mode","type":"enum","options":"overwrite,append","required":"true","helpTip":""} "OBS_path": "" # @param {"label":"OBS_path","type":"string","required":"true","helpTip":""} } save_DLI_table____id___ = MLSSaveDLITable(**params) save_DLI_table____id___.run()
  • 表格式定义 KV表格式定义:Key是列名的index,Value支持BIGINT,DOUBLE和STRING类型。在该组件中可以输入用户定义的key_map表,是列名和Key的映射,但无论是否输入key_map表,该组件都会输出key_map表记录转化后的列名和Key的映射。例如1:10,2:20和3:30。 key_map表格式定义:包含列名和index的映射以及类型信息的col_name,col_index和col_datatype,这三列类型要求是STRING,当col_datatype缺失时,默认值为double类型。 col_name col_index col_datatype col1 1 bigint col2 2 double
  • 样例 没有kepmap表 inputs = { "dataframe": input_df, "keymap_dataframe":None} params = { "inputs": inputs, "kv_col_name": "kv", "append_col_names": "rowid", "kv_delimiter": ":", "item_delimiter": ",", "top1200": True, }
  • 参数说明 参数名称 是否必选 参数描述 默认值 input_dataframe 是 输入df 无 input_keymap_dataframe 否 输入索引表对应的df,非必须 无 kv_col_name 是 KV列名 无 append_col_names 否 附加列名,支持多列 无 kv_delimiter 否 Key和Value之间分隔符 默认”:” item_delimiter 否 KV对之间分隔符 默认”,” top1200 否 是否只截取前1200列 true false true
  • 参数说明 参数 是否必选 参数说明 默认值 feature_index_list 是 feature列的index,不同index之间以','分割。举例: 1,2,3,4 "" label_index 是 label列的index。 举例:5 "" hidden_layer_list 是 隐藏层神经元的个数,不同数值之间以','分割,每个数值代表每一层神经元的个数。 int类型,范围[] "10,5" hidden_layer_activation 是 隐藏层激活函数,可选;范围['Sigmoid','ReLU'] Sigmoid epochs 是 训练迭代次数,int类型,范围[] 4 batch_size 是 batch_size大小,int类型,范围[] 24 learning_rate 是 学习率,double类型,范围[0,10] 0.01
  • 参数说明 参数 是否必选 参数说明 默认值 soften_cols 是 需要进行特征异常平滑处理的列,逗号分隔。 无 soften_method 是 特征平滑方法,可选z-score,min-max-per,min-max-thresh,boxplot。 "z-score" keep_original 是 是否保留原始列,如果保留则新增列,列名为原始列前加'soften_'。 False cl 否 置信水平,当选择z-score方法时需要配置此参数。 1 min_per 否 最低百分位。当平滑方法为min-max-per时需要配置该参数。 0.0 max_per 否 最高百分位。当平滑方法为min-max-per时需要配置该参数。 0.1 min_thresh 否 阈值最小值。当平滑方法为min-max-thresh时需要配置该参数。 -9999 max_thresh 否 阈值最大值。当平滑方法为阈值平滑时需要配置该参数。 9999 is_sparse 是 是否为k:v的稀疏特征, 如果指定该列,soften_cols参数只支持选择稀疏特征列kv_col中的列名。 False kv_col 否 如果为稀疏特征,指定稀疏特征列名。 "kv" item_spliter 否 稀疏特征的分隔符。 "," kv_spliter 否 稀疏特征key和value的分隔符。 ":"
  • 概述 特征异常平滑算子用于将数据中的异常数据平滑到一定的区间,可选择采用箱线图、阈值、百分位和z-score的方法确定平滑区间。 z-score方式:计算所需要平滑的特征的均值mean和标准差std,并引入置信因子cl 平滑区间上界: 平滑区间下界: min-max-per方式:通过上下百分位计算,假设需要平滑的特征列最大值为max,上百分位为max_per,下百分位为min_per 平滑区间上界: 平滑区间下界: min-max-thresh方式:直接指定平滑区间的上界和下界 boxplot方式:通过箱线图的方式计算平滑区间 中位数(Q2 / 50th百分位数):数据集的中间值; 下四分位数(Q1 / 25百分位数):最小数(不是“最小值”)和数据集的中位数之间的中间数; 上四分位数(Q3 / 75th Percentile):数据集的中位数和最大值之间的中间值(不是“最大值”); 四分位间距(IQR):第25至第75个百分点的距离 上边缘:Q3 + 1.5 * IQR 下边缘:Q1 -1.5 * IQR 平滑区间上界:上边缘 平滑区间下界:下边缘
  • 示例 在ModelArts Notebook里进行镜像构建。 ma-cli image build .ma/customize_from_ubuntu_18.04_to_modelarts/Dockerfile -swr notebook_test/my_image:0.0.1 其中“.ma/customize_from_ubuntu_18.04_to_modelarts/Dockerfile”为Dockerfile文件所在路径,“notebook_test/my_image:0.0.1”为构建的新镜像的SWR路径。
  • 输入参数说明 参数名称 参数描述 参数要求 doc_col_name 分词后的文本列 string类型;必填;多列时每列当做单独的句子处理 doc_sep 分词列中的词分隔符 string类型;必填;默认为" " min_count 最小词频 integer类型;非必填;默认为5,小于该值的词会被过滤掉,不填则识别为0,取值范围[0,2147483647] window_size 滑动窗口大小 integer类型;非必填;默认为整行,取值范围[1, 2147483647] partitions 数据重分区数 integer类型;非必填;取值范围[1,5000]; partitions 大数据量情况下建议partitions重分区数取大一些,100w长文本数据建议取1000,500w长文本数据建议取2000,如果在前两种场景下用户自定义partitions小于需求值,系统会自动替换为需求值(即前面的1000,2000)。 资源配置 数据量较大时建议采用更大的资源配置,可以设置executor memory大一些,参考配置如下: cluster 32配置: --executor-memory 8G \ --executor-cores 2 \ --num-executors 14 \ --driver-cores 4 \ --driver-memory 15G \ cluster 64配置: --executor-memory 24G \ --executor-cores 6 \ --num-executors 10 \ --driver-cores 4 \ --driver-memory 15G \ 参数配置 如果运行效率过慢,可考虑增大资源配置,或修改min_count、window_size参数,min_count大一些,window_size小一些。
  • 概述 承接分词结果,计算一个文档里单词两两之间的互信息值(PMI)。PMI计算公式如下: 相关概念解释: 共现对儿:一句话里面如果两个词在句子里的距离小于等于定义的滑动窗口大小,则这两个词共现形成共现对儿。 P(x,y):x,y为两个词,P(x,y)指两个词的共现概率,等于两个词的共现次数N(x, y)除以所有共现对儿的个数N。 P(x):指x与其他词共现的概率,等于x出现在所有共现对儿中的次数N(x)除以所有共现对儿的个数N。 P(y)同理。
  • 样例 数据输入 input_table input Try to try it how to try it Need to try it You try to do do something How can you these days still not try it not do anything It is a good chance to try also you can do it You are right that it is a good chance to try 配置流程 运行流程 输入参数 输出结果 word1 word2 word1_count word2_count co_occurrences_count pmi You a 11 16 1 -0.36646 You chance 11 16 1 -0.36646 You do 11 23 2 -0.03622 You good 11 16 1 -0.36646 You is 11 16 1 -0.36646 You it 11 34 1 -1.12023 You to 11 32 2 -0.36646 You try 11 38 2 -0.53831 a can 16 15 1 -0.67662 a chance 16 16 2 -0.04801 a do 16 23 1 -1.10406 a good 16 16 2 -0.04801 a is 16 16 2 -0.04801 a it 16 34 2 -0.80178 a to 16 32 2 -0.74116 a try 16 38 2 -0.91301 a you 16 15 1 -0.67662 can chance 15 16 1 -0.67662 can do 15 23 2 -0.34638 can good 15 16 1 -0.67662 can is 15 16 1 -0.67662 can it 15 34 2 -0.73724 can not 15 12 2 0.304211 can to 15 32 1 -1.36977 can try 15 38 2 -0.84847 can you 15 15 2 0.081068 chance do 16 23 1 -1.10406 chance good 16 16 2 -0.04801 chance is 16 16 2 -0.04801 chance it 16 34 2 -0.80178 chance to 16 32 2 -0.74116 chance try 16 38 2 -0.91301 chance you 16 15 1 -0.67662 do do 23 23 1 -1.46697 do good 23 16 1 -1.10406 do is 23 16 1 -1.10406 do it 23 34 2 -1.16469 do not 23 12 2 -0.12323 do to 23 32 3 -0.6986 do try 23 38 4 -0.58276 do you 23 15 2 -0.34638 good is 16 16 2 -0.04801 good it 16 34 2 -0.80178 good to 16 32 2 -0.74116 good try 16 38 2 -0.91301 good you 16 15 1 -0.67662 is it 16 34 2 -0.80178 is to 16 32 2 -0.74116 is try 16 38 2 -0.91301 is you 16 15 1 -0.67662 it it 34 34 1 -2.2487 it not 34 12 2 -0.5141 it to 34 32 7 -0.24217 it try 34 38 8 -0.28048 it you 34 15 2 -0.73724 not not 12 12 1 -0.16579 not try 12 38 2 -0.62532 not you 12 15 2 0.304211 to to 32 32 1 -2.12745 to try 32 38 8 -0.21986 to you 32 15 1 -1.36977 try try 38 38 1 -2.47115 try you 38 15 2 -0.84847
  • 功能亮点 免费算力 CodeLab内置了免费算力,包含CPU和GPU两种。您可以使用免费规格,端到端体验ModelArts Notebook能力。也可使用此免费算力,在线完成您的算法开发。 即开即用 无需创建Notebook实例,打开即可编码。 高效分享 ModelArts在AI Gallery中提供的Notebook样例,可以直接通过Run in ModelArts,一键打开运行和学习,并且可将样例修改后分享到AI Gallery中直接另存用于个人开发。 同时,您开发的代码,也可通过CodeLab快速分享到AI Gallery中给他人使用学习。
  • 体验CodeLab 进入CodeLab主页。 从管理控制台总览页进入,展示CodeLab首页。 图2 CodeLab首页 常用功能。 CodeLab的界面依托于JupyterLab,其相关的常见功能与JupyterLab相同。 常用操作指导可参见JupyterLab操作指导:JupyterLab简介及常用操作。 由于CodeLab的存储为系统默认路径,在使用“上传文件”或“下载文件至本地”时,只能使用JupyterLab页面提供的功能。 如需使用大文件上传和下载的功能,建议您前往Notebook,创建一个收费的实例进行使用。 切换规格。 CodeLab支持CPU和GPU两种规格,在右侧区域,单击切换规格,修改规格类型。 图3 切换规格 资源监控。 在使用过程中,如果想了解资源使用情况,可在右侧区域选择“Resource Monitor”,展示“CPU使用率”和“内存使用率”。 图4 资源监控 分享副本到AI Gallery。单击右上角的,将修改后的Notebook样例保存分享到AI Gallery中,供自己或他人学习使用。 图5 分享到AI Gallery 分享成功后,通过分享链接可以打开分享的副本,也可以在AI Gallery中找到分享的Notebook。 图6 发布成功