云服务器内容精选

  • Step1 运行预置算链 单击资产浏览图标,选择“算链”,单击展开,找到预置算链“销售销量训练”,如图1所示。 图1 预置算链 双击打开销售销量训练,并选择Kernel PySpark-2.4.5。 保存模型结点将训练完成的模型保存到本地默认位置,用于进行销售销量预测。您也可以右键该节点选择“参数设置”,如图2所示。在页面右侧自行设置模型路径,指定存储位置,如图3所示为默认存储路径“./output_model/sales_model”。 图2 右键设置参数 图3 设置保存模型参数 单击导航栏运行算链,如图4所示。运行过程需要几分钟,请耐心等待。当所有节点都变为绿色,表示算链运行成功,如图5所示。 图4 单击运行 图5 训练算链运行成功 当算链运行完毕后,选中任意节点,右键选择“展示运行结果”,查看该节点的运行结果,如图6所示。 如果无运行结果,如图7所示;如果有运行结果,如图8所示,例如模型应用节点和回归评估节点。 图6 右键选择展示运行结果 图7 无运行结果 图8 有运行结果
  • 参数说明 参数 子参数 参数说明 DLI_database - 用户的目标DLI数据库名称 DLI_table - 用户的目标DLI数据库中目标DLI外表或要新建DLI外表的名称 file_format - DLI外表使用的数据格式 mode - 数据的写入类型(追加或覆盖,默认为覆盖模式)。使用PySpark insertInto函数,因此追加或者覆盖都要保证特征列数量和顺序一致 OBS_path - 用户目标DLI外表的OBS存储路径
  • 样例 inputs = { "dataframe": None # @input {"label":"dataframe","type":"DataFrame"} } params = { "inputs": inputs, "DLI_database": None, # @param {"label":"DLI_database","type":"string","required":"true","helpTip":""} "DLI_table": None, # @param {"label":"DLI_table","type":"string","required":"true","helpTip":""} "file_format": "parquet", # @param {"label":"file_format","type":"enum","options":"orc,parquet,json,csv,carbon,avro","required":"true","helpTip":""} "mode": "overwrite", # @param {"label":"mode","type":"enum","options":"overwrite,append","required":"true","helpTip":""} "OBS_path": "" # @param {"label":"OBS_path","type":"string","required":"true","helpTip":""} } save_DLI_table____id___ = MLSSaveDLITable(**params) save_DLI_table____id___.run()
  • 参数说明 参数名称 是否必选 参数描述 默认值 input_dataframe 是 输入df 无 input_keymap_dataframe 否 输入索引表对应的df,非必须 无 kv_col_name 是 KV列名 无 append_col_names 否 附加列名,支持多列 无 kv_delimiter 否 Key和Value之间分隔符 默认”:” item_delimiter 否 KV对之间分隔符 默认”,” top1200 否 是否只截取前1200列 true false true
  • 表格式定义 KV表格式定义:Key是列名的index,Value支持BIGINT,DOUBLE和STRING类型。在该组件中可以输入用户定义的key_map表,是列名和Key的映射,但无论是否输入key_map表,该组件都会输出key_map表记录转化后的列名和Key的映射。例如1:10,2:20和3:30。 key_map表格式定义:包含列名和index的映射以及类型信息的col_name,col_index和col_datatype,这三列类型要求是STRING,当col_datatype缺失时,默认值为double类型。 col_name col_index col_datatype col1 1 bigint col2 2 double
  • 样例 没有kepmap表 inputs = { "dataframe": input_df, "keymap_dataframe":None} params = { "inputs": inputs, "kv_col_name": "kv", "append_col_names": "rowid", "kv_delimiter": ":", "item_delimiter": ",", "top1200": True, }
  • 参数说明 参数 是否必选 参数说明 默认值 feature_index_list 是 feature列的index,不同index之间以','分割。举例: 1,2,3,4 "" label_index 是 label列的index。 举例:5 "" hidden_layer_list 是 隐藏层神经元的个数,不同数值之间以','分割,每个数值代表每一层神经元的个数。 int类型,范围[] "10,5" hidden_layer_activation 是 隐藏层激活函数,可选;范围['Sigmoid','ReLU'] Sigmoid epochs 是 训练迭代次数,int类型,范围[] 4 batch_size 是 batch_size大小,int类型,范围[] 24 learning_rate 是 学习率,double类型,范围[0,10] 0.01
  • 概述 特征异常平滑算子用于将数据中的异常数据平滑到一定的区间,可选择采用箱线图、阈值、百分位和z-score的方法确定平滑区间。 z-score方式:计算所需要平滑的特征的均值mean和标准差std,并引入置信因子cl 平滑区间上界: 平滑区间下界: min-max-per方式:通过上下百分位计算,假设需要平滑的特征列最大值为max,上百分位为max_per,下百分位为min_per 平滑区间上界: 平滑区间下界: min-max-thresh方式:直接指定平滑区间的上界和下界 boxplot方式:通过箱线图的方式计算平滑区间 中位数(Q2 / 50th百分位数):数据集的中间值; 下四分位数(Q1 / 25百分位数):最小数(不是“最小值”)和数据集的中位数之间的中间数; 上四分位数(Q3 / 75th Percentile):数据集的中位数和最大值之间的中间值(不是“最大值”); 四分位间距(IQR):第25至第75个百分点的距离 上边缘:Q3 + 1.5 * IQR 下边缘:Q1 -1.5 * IQR 平滑区间上界:上边缘 平滑区间下界:下边缘
  • 参数说明 参数 是否必选 参数说明 默认值 soften_cols 是 需要进行特征异常平滑处理的列,逗号分隔。 无 soften_method 是 特征平滑方法,可选z-score,min-max-per,min-max-thresh,boxplot。 "z-score" keep_original 是 是否保留原始列,如果保留则新增列,列名为原始列前加'soften_'。 False cl 否 置信水平,当选择z-score方法时需要配置此参数。 1 min_per 否 最低百分位。当平滑方法为min-max-per时需要配置该参数。 0.0 max_per 否 最高百分位。当平滑方法为min-max-per时需要配置该参数。 0.1 min_thresh 否 阈值最小值。当平滑方法为min-max-thresh时需要配置该参数。 -9999 max_thresh 否 阈值最大值。当平滑方法为阈值平滑时需要配置该参数。 9999 is_sparse 是 是否为k:v的稀疏特征, 如果指定该列,soften_cols参数只支持选择稀疏特征列kv_col中的列名。 False kv_col 否 如果为稀疏特征,指定稀疏特征列名。 "kv" item_spliter 否 稀疏特征的分隔符。 "," kv_spliter 否 稀疏特征key和value的分隔符。 ":"
  • 示例 在ModelArts Notebook里进行镜像构建。 ma-cli image build .ma/customize_from_ubuntu_18.04_to_modelarts/Dockerfile -swr notebook_test/my_image:0.0.1 其中“.ma/customize_from_ubuntu_18.04_to_modelarts/Dockerfile”为Dockerfile文件所在路径,“notebook_test/my_image:0.0.1”为构建的新镜像的SWR路径。
  • 输入参数说明 参数名称 参数描述 参数要求 doc_col_name 分词后的文本列 string类型;必填;多列时每列当做单独的句子处理 doc_sep 分词列中的词分隔符 string类型;必填;默认为" " min_count 最小词频 integer类型;非必填;默认为5,小于该值的词会被过滤掉,不填则识别为0,取值范围[0,2147483647] window_size 滑动窗口大小 integer类型;非必填;默认为整行,取值范围[1, 2147483647] partitions 数据重分区数 integer类型;非必填;取值范围[1,5000]; partitions 大数据量情况下建议partitions重分区数取大一些,100w长文本数据建议取1000,500w长文本数据建议取2000,如果在前两种场景下用户自定义partitions小于需求值,系统会自动替换为需求值(即前面的1000,2000)。 资源配置 数据量较大时建议采用更大的资源配置,可以设置executor memory大一些,参考配置如下: cluster 32配置: --executor-memory 8G \ --executor-cores 2 \ --num-executors 14 \ --driver-cores 4 \ --driver-memory 15G \ cluster 64配置: --executor-memory 24G \ --executor-cores 6 \ --num-executors 10 \ --driver-cores 4 \ --driver-memory 15G \ 参数配置 如果运行效率过慢,可考虑增大资源配置,或修改min_count、window_size参数,min_count大一些,window_size小一些。
  • 样例 数据输入 input_table input Try to try it how to try it Need to try it You try to do do something How can you these days still not try it not do anything It is a good chance to try also you can do it You are right that it is a good chance to try 配置流程 运行流程 输入参数 输出结果 word1 word2 word1_count word2_count co_occurrences_count pmi You a 11 16 1 -0.36646 You chance 11 16 1 -0.36646 You do 11 23 2 -0.03622 You good 11 16 1 -0.36646 You is 11 16 1 -0.36646 You it 11 34 1 -1.12023 You to 11 32 2 -0.36646 You try 11 38 2 -0.53831 a can 16 15 1 -0.67662 a chance 16 16 2 -0.04801 a do 16 23 1 -1.10406 a good 16 16 2 -0.04801 a is 16 16 2 -0.04801 a it 16 34 2 -0.80178 a to 16 32 2 -0.74116 a try 16 38 2 -0.91301 a you 16 15 1 -0.67662 can chance 15 16 1 -0.67662 can do 15 23 2 -0.34638 can good 15 16 1 -0.67662 can is 15 16 1 -0.67662 can it 15 34 2 -0.73724 can not 15 12 2 0.304211 can to 15 32 1 -1.36977 can try 15 38 2 -0.84847 can you 15 15 2 0.081068 chance do 16 23 1 -1.10406 chance good 16 16 2 -0.04801 chance is 16 16 2 -0.04801 chance it 16 34 2 -0.80178 chance to 16 32 2 -0.74116 chance try 16 38 2 -0.91301 chance you 16 15 1 -0.67662 do do 23 23 1 -1.46697 do good 23 16 1 -1.10406 do is 23 16 1 -1.10406 do it 23 34 2 -1.16469 do not 23 12 2 -0.12323 do to 23 32 3 -0.6986 do try 23 38 4 -0.58276 do you 23 15 2 -0.34638 good is 16 16 2 -0.04801 good it 16 34 2 -0.80178 good to 16 32 2 -0.74116 good try 16 38 2 -0.91301 good you 16 15 1 -0.67662 is it 16 34 2 -0.80178 is to 16 32 2 -0.74116 is try 16 38 2 -0.91301 is you 16 15 1 -0.67662 it it 34 34 1 -2.2487 it not 34 12 2 -0.5141 it to 34 32 7 -0.24217 it try 34 38 8 -0.28048 it you 34 15 2 -0.73724 not not 12 12 1 -0.16579 not try 12 38 2 -0.62532 not you 12 15 2 0.304211 to to 32 32 1 -2.12745 to try 32 38 8 -0.21986 to you 32 15 1 -1.36977 try try 38 38 1 -2.47115 try you 38 15 2 -0.84847
  • 概述 承接分词结果,计算一个文档里单词两两之间的互信息值(PMI)。PMI计算公式如下: 相关概念解释: 共现对儿:一句话里面如果两个词在句子里的距离小于等于定义的滑动窗口大小,则这两个词共现形成共现对儿。 P(x,y):x,y为两个词,P(x,y)指两个词的共现概率,等于两个词的共现次数N(x, y)除以所有共现对儿的个数N。 P(x):指x与其他词共现的概率,等于x出现在所有共现对儿中的次数N(x)除以所有共现对儿的个数N。 P(y)同理。
  • 使用限制 CodeLab默认打开,使用的是CPU计算资源。如需切换为GPU,请在右侧窗口,更换GPU规格。 在ModelArts控制台的“总览”界面打开CodeLab,使用的是CPU或GPU资源,无法使用Ascend资源。 如果是AI Gallery社区的Notebook案例,本身使用的资源是Ascend的,那么“Run in ModelArts”跳转到CodeLab,就可以使用昇腾卡进行训练,也支持切换规格。 自启动后,免费规格默认可使用1小时,请注意右上角的剩余时长。超过1小时后,可执行续期操作,且系统每隔一段时间,将提醒确认下续期。 免费的CodeLab主要用于体验,72小时内未使用,将释放资源。保存在其中的代码文档将丢失,请注意备份文件以及使用时长。
  • 功能亮点 免费算力 CodeLab内置了免费算力,包含CPU和GPU两种。您可以使用免费规格,端到端体验ModelArts Notebook能力。也可使用此免费算力,在线完成您的算法开发。 即开即用 无需创建Notebook实例,打开即可编码。 高效分享 ModelArts在AI Gallery中提供的Notebook样例,可以直接通过Run in ModelArts,一键打开运行和学习,并且可将样例修改后分享到AI Gallery中直接另存用于个人开发。 同时,您开发的代码,也可通过CodeLab快速分享到AI Gallery中给他人使用学习。