华为云用户手册

  • 样例 数据样本 point 1 2 3 4 5 6 7 8 9 1 1 1 1 1 2 10 3 1 1 2 2 1 1 1 2 1 2 1 1 3 1 1 1 1 2 3 3 1 1 4 4 1 1 1 2 1 2 1 1 5 4 1 1 1 2 1 3 1 1 6 6 1 1 1 2 1 3 1 1 7 7 3 2 10 5 10 5 4 4 8 3 1 1 1 2 1 2 1 1 9 1 1 1 1 2 1 3 1 1 10 3 2 1 1 1 1 2 1 1 11 5 1 1 1 2 1 2 1 1 12 2 5 3 3 6 7 7 5 1 配置流程 运行流程 运行示例 Box_plot params = { "inputs": inputs, "selected_cols": "1,2,3,4,5,6,7,8,9", "detect_strategy": "Box_plot"} 过滤后数据表 过滤掉了第1、7、10、12行 point 1 2 3 4 5 6 7 8 9 2 2 1 1 1 2 1 2 1 1 3 1 1 1 1 2 3 3 1 1 4 4 1 1 1 2 1 2 1 1 5 4 1 1 1 2 1 3 1 1 6 6 1 1 1 2 1 3 1 1 8 3 1 1 1 2 1 2 1 1 9 1 1 1 1 2 1 3 1 1 11 5 1 1 1 2 1 2 1 1 模型表 model_key model_value detect_model {'featureName': '1', 'mid': 3.0, 'q1': 1.0, 'q3': 4.0, 'upper_bound': 8.5, 'lower_bound': -3.5} detect_model {'featureName': '2', 'mid': 1.0, 'q1': 1.0, 'q3': 1.0, 'upper_bound': 1.0, 'lower_bound': 1.0} detect_model {'featureName': '3', 'mid': 1.0, 'q1': 1.0, 'q3': 1.0, 'upper_bound': 1.0, 'lower_bound': 1.0} detect_model {'featureName': '4', 'mid': 1.0, 'q1': 1.0, 'q3': 1.0, 'upper_bound': 1.0, 'lower_bound': 1.0} detect_model {'featureName': '5', 'mid': 2.0, 'q1': 2.0, 'q3': 2.0, 'upper_bound': 2.0, 'lower_bound': 2.0} detect_model {'featureName': '6', 'mid': 1.0, 'q1': 1.0, 'q3': 3.0, 'upper_bound': 6.0, 'lower_bound': -2.0} detect_model {'featureName': '7', 'mid': 3.0, 'q1': 2.0, 'q3': 3.0, 'upper_bound': 4.5, 'lower_bound': 0.5} detect_model {'featureName': '8', 'mid': 1.0, 'q1': 1.0, 'q3': 1.0, 'upper_bound': 1.0, 'lower_bound': 1.0} detect_model {'featureName': '9', 'mid': 1.0, 'q1': 1.0, 'q3': 1.0, 'upper_bound': 1.0, 'lower_bound': 1.0} AVF params = { "inputs": inputs, "selected_cols": "1,2,3,4,5,6,7,8,9","detect_strategy": "AVF"} 过滤后数据表 过滤掉了第12行 point 1 2 3 4 5 6 7 8 9 1 1 1 1 1 2 10 3 1 1 2 2 1 1 1 2 1 2 1 1 3 1 1 1 1 2 3 3 1 1 4 4 1 1 1 2 1 2 1 1 5 4 1 1 1 2 1 3 1 1 6 6 1 1 1 2 1 3 1 1 8 3 1 1 1 2 1 2 1 1 9 1 1 1 1 2 1 3 1 1 10 3 2 1 1 1 1 2 1 1 11 5 1 1 1 2 1 2 1 1 模型表 model_key model_value detect_model {'featureName': ['1', '2', '3', '4', '5', '6', '7', '8', '9'], 'frequency_info': {'mid': 73.0, 'q1': 58.0, 'q3': 74.0, 'threshold': 34.0}}
  • 概述 特征异常检测的方法包括箱型图(Box-plot)和AVF(Attribute Value Frequency) 箱型图用于检测连续值类特征的数据,根据四分位数检测异常特征。 AVF用于检测枚举值类特征的数据,根据枚举特征的取值频率及阈值检测异常特征。 箱型图异常检测 箱形图可以用来观察数据整体的分布情况,利用中位数,25%分位数,75%分位数,上边界,下边界等统计量来描述数据的整体分布情况。通过计算这些统计量,生成一个箱体图,箱体包含了大部分的正常数据,而在箱体上边界和下边界之外的,就是异常数据。 其中上下边界的计算公式如下: UpperLimit=Q3+1.5IQR=75%分位数+(75%分位数-25%分位数)*1.5, LowerLimit=Q1-1.5IQR=25%分位数-(75%分位数-25%分位数)*1.5 (将数据由小到大排序,处于中间的为中位数,即50%分位数,在75%位置的即为75%分位数或四分之三分位数——Q3,在25%位置的即为25%分位数或四分之一分位数——Q1) AVF异常检测(Attribute Value Frequency) AVF算法全称Attribute Value Frequency,针对非数值型的数据,即类别离散数据的算法。具体步骤如下: 将所有的数据点都标为非异常点; 计算所有每一个属性值的频数; 计算每一个点的AVF score,即样本点x的每一个属性值对应的频数之和除以属性总数,这里的属性指的都是category的属性。 AVF score值越小,样本越异常。
  • 参数说明 参数 参数含义 默认值 tensor_col_name 特征列名称。 数据格式为key:value,多个特征使用英文逗号(,)分隔。例如1:1.0,3:1.0 无 label_col_name label列名。数据必须是数值类型。如果task取值为binary_classification,则label只能取0或1。 无 task FM算法的训练模式(分类、回归) binary_classification dim 使用英文逗号(,)分隔的三个整数,分别表示0次项、线性项及二次项的长度。 1,1,8 num_epochs 迭代数。 100 learn_rate 学习率。 0.01 param_lambda 使用英文逗号(,)分隔的三个浮点数,分别表示0次项、线性项及二次项的正则化系数。 0.2,0.2,0.2 init_stdev 参数初始化标准差。 0.01 mini_batch_fraction 训练过程中,最小分片大小。 1 tol 判断收敛的忍受度。 0.1 pred_result_col_name 预测结果列名。 predictResultCol pred_score_col_name 预测得分列名(在分类模型中存在)。 predictScoreCol keep_col_names 保存至输出结果表的列。 无 数据样例:
  • 参数说明 参数 是否必选 参数说明 默认值 model_path 是 PMML模型所在的位置 "" append_cols 是 需要输出的列,如col1,col2。如果不设置则默认输出所有的输入列 "" result_col 是 预测结果类别的字段名 "prediction_result" score_col 是 预测结果类别概率的字段名 "prediction_score" detail_col 是 预测结果的详细信息 "prediction_detail"
  • 参数说明 参数 是否必选 参数说明 默认值 feature_index_list 是 feature列的index,不同index之间以','分割。eg. 1,2,3,4 "" label_index 是 label列的index。 eg. 5 "" hidden_layer_list 是 隐藏层神经元的个数,不同数值之间以','分割,每个数值代表每一层神经元的个数。 int类型,范围[] "10,5" hidden_layer_activation 是 隐藏层激活函数,可选;范围['Sigmoid','ReLU'] Sigmoid epochs 是 训练迭代次数,int类型,范围[] 4 batch_size 是 batch_size大小,int类型,范围[] 24 learning_rate 是 学习率,double类型,范围[0,10] 0.01
  • 输入 参数 子参数 参数说明 inputs item_embedding inputs为字典类型,item_embedding为pyspark中的DataFrame类型对象,代表物品向量。 inputs true_sequence true_sequence为pyspark中的DataFrame类型对象,代表真实关联表。 inputs user_embedding user_embedding为pyspark中的DataFrame类型对象,代表用户向量。
  • 概述 向量召回评估算子计算召回的hitrate,用于评估召回结果的好坏,hitrate越高表示训练产出的向量去召回向量的结果越准确。支持u2i召回和i2i召回的计算。u2i召回时,拿user(用户)的向量去召回top k个items(物品),i2i召回时拿item的向量去召回top k个items。 hitrate的具体计算方法为,假设真实trigger(u2i召回时为user,i2i召回时为item)的关联item集合为M,而实际召回了top k个和trigger相似的items,若其中落在了M里的集合为N,则top k hitrate为|N| / |M|。
  • 概述 混淆矩阵是机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总。其中矩阵的行表示真实值,矩阵的列表示预测值。 True Positive(TP):真正类。样本的真实类别是正类,并且模型识别的结果也是正类; False Negative(FN):假负类。样本的真实类别是正类,但是模型将其识别为负类; False Positive(FP):假正类。样本的真实类别是负类,但是模型将其识别为正类; True Negative(TN):真负类。样本的真实类别是负类,并且模型将其识别为负类。
  • 参数说明 参数 是否必选 参数说明 默认值 label_col 是 数据中的标签列。 无 prediction_index_col 是 代表标签编码后的预测结果的列名,需要与mls中各种分类算子预测结果列保持一致。 "prediction_index" label_index_col 是 经过标签编码后的标签列。 "label_index" probability_col 否 预测结果的分类概率列。 "probability" threshold 否 分类阈值,二分类场景下可设置,支持向量机SVM算法不支持。 0.5 positive_category 否 二分类任务的正样本。 无
  • 样例 数据样本 id,segmentdoc001,词频统计 是指 统计 一个 字符串 中 , 出现了 多少 个 单词 以及 这些 单词 出现 的 次数 。 配置流程 运行流程 参数设置 结果查看 id,word,countdoc001,的,1doc001,词频统计,1doc001,一个,1doc001,出现了,1doc001,,,1doc001,个,1doc001,出现,1doc001,多少,1doc001,。,1doc001,单词,2doc001,统计,1doc001,次数,1doc001,这些,1doc001,以及,1doc001,中,1doc001,是指,1doc001,字符串,1
  • 参数说明 参数名 参数类型 是否必选 参数含义 默认值 inputSelectedColName1 String 是 输入表被选第一个字段名称 无 inputSelectedColName2 String 是 输入表被选第二个字段名称 无 inputAppendColNames String 否 输入表添加的其他字段名称, 涉及多个字段以逗号分割 无 outputColName String 否 输出的字段名称 output method String 是 字符串相似度计算方法levenshtein,levenshtein_sim,lcs,lcs_sim,cosine,hash_jaccard_sim cosine
  • 参数说明 参数 是否必选 参数说明 默认值 user_col 是 用户id所在的列名 "user" item_col 是 项目id所在的列名 "item" output_table_partition 是 数据的并行度 0.5 similarity_type 是 相似度计算公式,取值为cosine,jaccard "cosine" topn 是 最近的n个物品 200 min_user_behavior 是 最小的用户行为数量,取值为[0,+∞) 2 max_user_behavior 是 最多的用户行为数量,取值为[0,+∞) 500 item_delimiter 是 物品之间的分隔符 " " kv_delimiter 是 物品内部的分隔符 ":"
  • 参数说明 参数 是否必选 参数说明 默认值 user_col 是 User列的名称 user item_col 是 Item列的名称 item score_col 是 用户评分列名称 "" min_user_items 是 User互动的Item的最小数量 10 max_user_items 是 User互动的Item的最大数量 1000 max_item_number 是 Item参与计算的人数最大值 1000 output_score_col_name 是 预测用户评分的列名 rec_score user_alpha 是 User的alpha参数。用于计算用户权重:user weight = 1.0/(userAlpha + userClickCount)^userBeta 0.0 user_beta 是 User的Beta参数。用于计算用户权重:user weight = 1.0/(userAlpha + userClickCount)^userBeta 0.5
  • 参数说明 参数名 参数类型 是否必选 参数含义 默认值 inputSelectedColName1 String 是 输入表被选字段名称。 当该字段为空时,dataDF中第一个string类型的字段。 无 mapSelectedColName2 String 是 map表被选字段名称。 当该字段为空时,paramDF中第一个string类型的字段。 无 inputAppendColNamesStr String 否 输入表添加的其他字段名称,涉及多个字段以逗号分隔。 无 inputAppendRenameColNamesStr String 否 输入表添加的其他需要rename字段映射关系。 colName1:colReName1,colName2:colReName2 mapAppendColNamesStr String 否 map表添加的其他字段名称,涉及多个字段以逗号分隔。 无 mapAppendRenameColNamesStr String 否 map表添加的其他需要rename字段映射关系。 colName1:colReName1,colName2:colReName2 outputColName String 否 输出的字段名称。 dist method String 是 字符串相似度计算方法levenshtein,levenshtein_sim,lcs,lcs_sim,cosine,hash_jaccard_sim cosine lambda Double 否 SSK需要的参数。 0.5 k Int 否 SSK需要的参数。 10 kVec Int 否 SimHashHamming字符向量的大小。 64 b Int 否 minhash分桶大小。 100 seed Int 否 minhash随机hash函数的种子。 0 topN Int 否 最相似的TopN字符串。 10 subLen Int 否 粗排时,最小子串大小。 1
  • 参数说明 参数名 参数类型 是否必选 参数含义 默认值 inputSelectedColName1 String 是 输入表被选第一个字段名称 无 inputSelectedColName2 String 是 输入表被选第二个字段名称 无 inputAppendColNamesStr String 否 输入表添加的其他字段名称,涉及多个字段以逗号分隔 无 inputAppendRenameColNamesStr String 否 输入表添加的其他需要rename字段映射关系 colName1:colReName1,colName2:colReName2 outputColName String 否 输出的字段名称 distance method String 是 字符串相似度计算方法levenshtein,levenshtein_sim,lcs,lcs_sim,cosine,hash_jaccard_sim cosine lambda Double 否 SSK需要的参数 0.5 k Int 否 SSK需要的参数 10 kVec Int 否 SimHashHamming字符向量的大小 64 b Int 否 minhash分桶大小 10 seed Int 否 minhash随机hash函数的种子 0
  • 原理 该算法基于TextRank,依据的PageRank算法思想,将滑动窗口内的共现词汇对儿当做相连接的节点构建网络,计算节点的价值(即单词的重要性)并排序,数值高的单词即为该文本的关键词。 TextRank公式如下,其中V_i、V_j为网络中的节点(即单词),In(V_i)表示节点V_i的所有入点,Out(V_j)表示节点V_j的全部出点,Out(V_j)表示节点V_j的所有出点(跳转指向的点,即下一个单词),N_ji表示(V_j, V_i)的个数,S(V_i)、S(V_j)表示节点V_i、V_j的价值,d为阻尼系数,默认为0.85。 本算法基于pagerank思想,将共现词对儿AB的两条边(A,B)(B,A)添加进网络,相同元素的共现对儿不重复添加,(A,A)自指向共现对儿不添加。
  • 输入参数说明 参数名称 参数描述 参数要求 doc_id_col 文章id列 string类型;必填 doc_content 分词后的文本列 string类型;必填;多列时每列当做单独的句子处理 doc_content_sep 分词列中的词分隔符 string类型;必填;默认为" " window_size 滑动窗口大小 integer类型;非必填;默认为整行,取值范围[1, 2147483647] dumping_factor TextRank算法的阻尼系数 double类型;非必填;默认0.85,取值范围(0, 1) max_iter TextRank算法的最大迭代次数 integer类型;非必填;默认100,取值范围[1, 5000] epsilon TextRank算法的收敛残差阈值 double类型;非必填;默认0.000001,取值范围(0.000001, 1) 该算子直接承接分词的结果,无过滤停用词、过滤低频词等操作。 会过滤掉doc_id_col/doc_content为空的行。
  • 样例 数据输入 id text 1 A B C A A A A B D E C B B A A D E C F A F B E 2 O O P X O Y O Z Z Z X X Y O X X O Y Y 3 O O P X O 4 O O P X O Y 配置流程 运行流程 输入参数 输出结果 id keywords weight 1 B 0.220406 1 A 0.17985 1 C 0.17985 1 D 0.140494 1 E 0.140494 2 O 0.277862 2 X 0.277862 2 P 0.148092 2 Y 0.148092 2 Z 0.148092 3 O 0.333333 3 P 0.333333 3 X 0.333333 4 O 0.366736 4 P 0.245928 4 X 0.245928 4 Y 0.141408
  • 输入参数说明 参数名称 参数说明 参数要求 input_words_col_name 分词列,即进行ngram分词处理的列 string类型;必填;仅支持单列 input_words_sep 分词列中的词分隔符 string类型;必填;默认为" " input_weight_col_name 分词行权重 string类型;表列为数值类型;非必填; vocab_words_col_name 词袋词汇表的词汇列列名 string类型;若词袋表不为空,此项为必填 count_gram_col_name 每个ngram短语的词个数(n),如1-gram,2-gram...,显示1-n等 string类型;表列为数值类型;若历史输出表不为空,此项为必填 count_word_col_name ngram短语列 string类型;若历史输出表不为空,此项为必填 count_count_col_name ngram统计列 string类型;表列为数值类型;若历史输出表不为空,此项为必填 order ngram最大单词个数,即n-gram的n integer类型;必填;order范围为[1,3]
  • 参数说明 参数 是否必选 参数说明 默认值 id_col 是 标识文章ID的列名,仅可指定一列 "id" word_col 是 word列名,仅可指定一列 "word" count_col 是 count列名,仅可指定一列 "count" doc_count_col 否 指定doc_count列名 "doc_count" total_word_count_col 否 指定total_word_count列名 "total_word_count" total_doc_count_col 否 指定total_doc_count列名 "total_doc_count" tf_col 否 指定TF列名 "tf" idf_col 否 指定IDF列名 "idf" tfidf_col 否 指定TF-IDF列名 "tfidf"
  • 样例 数据样本 id sentence 1 ball ball fun planet galaxy 2 referendum referendum fun planet planet 3 planet planet planet galaxy ball 4 planet galaxy planet referendum ball 配置流程 运行流程 参数设置 结果查看 id word count doc_count total_word_count total_doc_count tf idf tfidf 1 galaxy 1 3 5 4 0.2 0.223144 0.044629 1 fun 1 2 5 4 0.2 0.510826 0.102165 1 ball 2 3 5 4 0.4 0.223144 0.089257 1 planet 1 4 5 4 0.2 0 0 2 fun 1 2 5 4 0.2 0.510826 0.102165 2 planet 2 4 5 4 0.4 0 0 2 referendum 2 2 5 4 0.4 0.510826 0.20433 3 ball 1 3 5 4 0.2 0.223144 0.044629 3 planet 3 4 5 4 0.6 0 0 3 galaxy 1 3 5 4 0.2 0.223144 0.044629 4 ball 1 3 5 4 0.2 0.223144 0.044629 4 planet 2 4 5 4 0.4 0 0 4 galaxy 1 3 5 4 0.2 0.223144 0.044629 4 referendum 1 2 5 4 0.2 0.510826 0.102165
  • 输出表说明 列名 列描述 备注 xxx 原输入表列 如果remain_other_cols为True,则保留input_table全列;如果为False,则只保留input_table分词列 xxx_words 分词列的分词结果列 分词结果列列名为原分词列列名 + "_words" dict_table是对默认词典的增加,不是只保留dict_table里的词; 自定义词典或自定义合并的词词性标注为"nz"; 暂不支持中文繁体简体混合的时间日期,如“陆月贰十日”。
  • 输入参数说明 参数名称 参数描述 参数要求 input_cols 用于分词的列名 string类型;必填;可支持多列 input_cols_sep 多列分词列名分隔符 string类型;必填;默认为"," output_sep 输出表分词列分词分隔符 string类型;必填;默认为" " remain_other_cols 输出是否保留分词列外的其他列 boolean类型;必填;默认为False dict_col 词典表的word列 string类型;非必填;一列的一行代表一个词 enable_ent 是否识别简单实体 boolean类型;非必填;默认为True enable_person 是否识别人名 boolean类型;非必填;默认为True enable_org 是否识别机构名 boolean类型;非必填;默认为True enable_pos 是否进行词性标注 boolean类型;非必填;默认为False pos_sep 词性标注与单词分隔符 string类型;非必填;默认为"/";不得与output_sep重复 enable_tel 是否识别电话号码 boolean类型;非必填;默认为True enable_time 是否识别时间 boolean类型;非必填;默认为True enable_date 是否识别日期 boolean类型;非必填;默认为True enable_chn_time 是否识别中文时间 boolean类型;非必填;默认为True enable_chn_date 是否识别中文日期 boolean类型;非必填;默认为True filter_all_punctuation 是否过滤分词结果全为标点符号的词 boolean类型;非必填;默认为False filter_all_en 是否过滤分词结果为全英文的词 boolean类型;非必填;默认为False filter_all_num 是否过滤分词结果为全数字的词 boolean类型;非必填;默认为False
  • 样例 数据输入 input_table id sentence_en sentence_chn 1 You can call me at 0513-1323563 我的电话是18812534124,不要打0732-1324-5634 2 It's a wrong telephone number like 071-2341. You can do it 这个电话号码1032-122233是错误的 3 It's a wrong telephone number like 12345678901 这也是个错误电话号码1236452123 4 We will go there at 13 past 10 o'clock. 我们将要在十点钟零十三分钟到那里 5 you can go there at eleven to twelve o'clock. 你可以在十一点四十九分出发 6 you can go there 52 past 20 o'clock. 你可以在二十点五十二分去 7 before 12 we finish it. 我们要在十二点之前完成它 8 We will finish it at 20:13:22 我们将在20点13分22秒完成它 9 We will finish it at 13:22 我们将在十三点二十二分完成 10 We will finish it at 60:22 我们将在六十点二十二分完成(这是个错误时间) 11 aaa cafd February 1,2022 xxx 当地时间12月7日 12 dfsad February, 2022 我吃了面包在九八年五月二十八号。 13 dafdsa Feb 1st, 2nd, 3rd, 4th 1936年 3月零九日,02月八日, 1830年, 14 dsafd Feb 1 一八二五年, 三月,12月, 在九号,在五日, 公元前一五三年 15 Feb 1 in 2022 二十年后,我不知道在哪里 16 11th August, 2020 去年12月28日,我去了兰州 17 1st in/of Feb 凌晨时候我醒了一次,然后到二月拾日 18 1 in Feb in 2022 人不能,至少不应该...【陆月贰十五日记】 19 I make 2022/01/08 二零二二年一月零八日,我开始了远行 20 I make 01/08/2022 一月八日,这个活动终止了,在二〇二二年。 21 I make 2203-01-20 贰贰零叁年一月二十日,游戏内测,五月三十日,正式上线。 27 I make 2203-01-20 贰零二三年一月二十日,游戏内测,五月三十日,正式上线。 22 will you 2019.01.30 这是个正确的时间2019年01月30日 23 I got it 1988 31 05 不想写了1988年 31号 05月 24 I got it 1988.02.33 怎么还有1988年.02月.33日 25 I got it 30/05 这个是30号/05月 26 I got it 05. 12(you need know it) 这是最后一个,05月. 12号 dict_table word id 游戏内测 0 电话号码 1 正式上线 2 二十年后 3 4 ok 5 配置流程 运行流程 输入参数 输出结果 sentence_en sentence_chn sentence_en_words sentence_chn_words You can call me at 0513-1323563 我的电话是18812534124,不要打0732-1324-5634 You/nx||can/nx||call/nx||me/nx||at/nx||0513-1323563/nz 我/r||的/uj||电话/n||是/v||18812534124/nz||不/d||要/v||打/v||0732-1324-5634/nz It's a wrong telephone number like 071-2341. You can do it 这个电话号码1032-122233是错误的 It's/nx||a/nx||wrong/nx||telephone/nx||number/nx||like/nx||071/m||2341/m||You/nx||can/nx||do/nx||it/nx 这个/r||电话号码/nz||1032/m||122233/m||是/v||错误/n||的/uj It's a wrong telephone number like 12345678901 这也是个错误电话号码1236452123 It's/nx||a/nx||wrong/nx||telephone/nx||number/nx||like/nx||12345678901/m 这/r||也/d||是/v||个/q||错误/n||电话号码/nz||1236452123/m We will go there at 13 past 10 o'clock. 我们将要在十点钟零十三分钟到那里 We/nx||will/nx||go/nx||there/nx||at 13 past 10 o'clock/nz 我们/r||将要/d||在/p||十点钟零十三分钟/nz||到/v||那里/r you can go there at eleven to twelve o'clock. 你可以在十一点四十九分出发 you/nx||can/nx||go/nx||there/nx||at eleven to twelve o'clock/nz 你/r||可以/v||在/p||十一点四十九分/nz||出发/v you can go there 52 past 20 o'clock. 你可以在二十点五十二分去 you/nx||can/nx||go/nx||there/nx||52 past 20 o'clock/nz 你/r||可以/v||在/p||二十点五十二分/nz||去/v before 12 we finish it. 我们要在十二点之前完成它 before 12/nz||we/nx||finish/nx||it/nx 我们/r||要/v||在/p||十二点/nz||之前/f||完成/v||它/r We will finish it at 20:13:22 我们将在20点13分22秒完成它 We/nx||will/nx||finish/nx||it/nx||at 20:13:22/nz 我们/r||将/d||在/p||20点13分22秒/nz||完成/v||它/r We will finish it at 13:22 我们将在十三点二十二分完成 We/nx||will/nx||finish/nx||it/nx||at 13:22/nz 我们/r||将/d||在/p||十三点二十二分/nz||完成/v We will finish it at 60:22 我们将在六十点二十二分完成(这是个错误时间) We/nx||will/nx||finish/nx||it/nx||at/nx||60/m||22/m 我们/r||将/d||在/p||六十/m||点/q||二十二/m||分/q||完成/v||这/r||是/v||个/q||错误/n||时间/n aaa cafd February 1,2022 xxx 当地时间12月7日 aaa/nx||cafd/nx||February 1,2022/nz||xxx/nx 当地/s||时间/n||12月7日/nz dfsad February, 2022 我吃了面包在九八年五月二十八号。 dfsad/nx||February, 2022/nz 我/r||吃/v||了/ul||面包/n||在/p||九八年五月二十八号/nz dafdsa Feb 1st, 2nd, 3rd, 4th 1936年 3月零九日,02月八日, 1830年, dafdsa/nx||Feb 1st/nz||2/m||nd/nx||3/m||rd/nx||4/m||th/nx 1936年 3月零九日/nz||02月八日/nz||1830年/nz dsafd Feb 1 一八二五年, 三月,12月, 在九号,在五日, 公元前一五三年 dsafd/nx||Feb 1/nz 一八二五年, 三月/nz||12月/nz||在/p||九号/nz||在/p||五/m||日/j||公元前一五三年/nz Feb 1 in 2022 二十年后,我不知道在哪里 Feb 1 in 2022/nz 二十年后/nz||我/r||不/d||知道/v||在/p||哪里/r 11th August, 2020 去年12月28日,我去了兰州 11th August, 2020/nz 去年/nz||12月28日/nz||我/r||去/v||了/ul||兰州/ns 1st in/of Feb 凌晨时候我醒了一次,然后到二月拾日 1/m||st/nx||in/nx||of Feb/nz 凌晨/nz||时候/n||我/r||醒/v||了/ul||一/m||次/q||然后/c||到/v||二月拾日/nz 1 in Feb in 2022 人不能,至少不应该...【陆月贰十五日记】 1 in Feb in 2022/nz 人/n||不能/v||至少/d||不/d||应该/v||陆月/nr||贰十五/m||日记/n I make 2022/01/08 二零二二年一月零八日,我开始了远行 I/nx||make/nx||2022/01/08/nz 二零二二年一月零八日/nz||我/r||开始/v||了/ul||远行/vn I make 01/08/2022 一月八日,这个活动终止了,在二〇二二年。 I/nx||make/nx||01/08/2022/nz 一月八日/nz||这个/r||活动/vn||终止/v||了/ul||在/p||二〇二二年/nz I make 2203-01-20 贰贰零叁年一月二十日,游戏内测,五月三十日,正式上线。 I/nx||make/nx||2203-01-20/nz 贰贰零叁年一月二十日/nz||游戏内测/nz||五月三十日/nz||正式上线/nz I make 2203-01-20 贰零二三年一月二十日,游戏内测,五月三十日,正式上线。 I/nx||make/nx||2203-01-20/nz 贰零二三年一月二十日/nz||游戏内测/nz||五月三十日/nz||正式上线/nz will you 2019.01.30 这是个正确的时间2019年01月30日 will/nx||you/nx||2019.01.30/nz 这/r||是/v||个/q||正确/a||的/uj||时间/n||2019年01月30日/nz I got it 1988 31 05 不想写了1988年 31号 05月 I/nx||got/nx||it/nx||1988 31 05/nz 不想/v||写/v||了/ul||1988年 31号 05月/nz I got it 1988.02.33 怎么还有1988年.02月.33日 I/nx||got/nx||it/nx||1988.02.33/nz 怎么/r||还有/v||1988/m||年/q||02/m||月/q||33/m||日/j I got it 30/05 这个是30号/05月 I/nx||got/nx||it/nx||30/05/nz 这个/r||是/v||30号/05月/nz I got it 05. 12(you need know it) 这是最后一个,05月. 12号 I/nx||got/nx||it/nx||05. 12/nz||you/nx||need/nx||know/nx||it/nx 这/r||是/v||最后/f||一个/mq||05月. 12号/nz
  • 样例 数据样本 id sentence label 1 ball ball fun planet galaxy 1 2 referendum referendum fun planet planet 0 3 planet planet planet galaxy ball 1 4 planet galaxy planet referendum ball 1 sentence ball ball ball referendum referendum planet planet ball 配置流程 运行流程 参数设置 结果查看 sentence words rawFeatures features rawPrediction probability prediction ball ball ball ['ball', 'ball', 'ball'] (8000,[5492],[3.0]) (8000,[5492],[0.6694306539426294]) [-7.115045557028399,-5.9949311191899355] [0.24599005712406302,0.7540099428759369] 1 referendum referendum ['referendum', 'referendum'] (8000,[999],[2.0]) (8000,[999],[1.0216512475319814]) [-9.561433564101923,-9.165985052719044] [0.402406373461625,0.5975936265383749] 1 planet planet ball ['planet', 'planet', 'ball'] (8000,[5492,6309],[1.0,2.0]) (8000,[5492,6309],[0.22314355131420976,0.0]) [-3.104090044788206,-2.2686204451354213] [0.3024897957164007,0.6975102042835993] 1
  • 参数说明 参数 是否必选 参数说明 默认值 sentence_col 是 文本列 "sentence" label_col 是 标签列(标签值需整数或浮点型) "label" words_col 否 用于分词后保存words的列名 "words" feature_col 否 用于保存feature的列名 "features" min_doc_freq 否 最小词数阈值 0 smoothing 否 平滑指数 1.0 prediction_col 否 用于保存prediction的列名 "prediction" raw_prediction_col 否 用于保存raw_prediction的列名 "raw_prediction" probability_col 否 用于保存probability的列名 "probability" raw_features_col 否 用于保存raw_features的列名 "raw_features" tf_num_features 否 tf-idf时用于保存的词的数量,建议不小于词汇种类 8000
  • 样例 数据输入 id text 1 荷兰国家旅游会议促进局亚洲区总监、中国区首席代表杨宇对《环球时报》记者表示,未来重启的中国旅游市场会更加细分,也会出现更多新的旅行需求。 2 此外,国外的酒店从业者也非常期待中国游客“回归”。禧亚酒店及度假村集团大中华区品牌负责人张章告诉记者,作为马尔代夫最大的酒店集团之一,禧亚酒店及度假村集团旗下的5家岛屿度假酒店都已重启中国管家计划,重新召回中国籍宾客关系服务人员、中文管家、中国厨师等。 配置流程 运行流程 输入参数 输出结果 id text text_summary 1 荷兰国家旅游会议促进局亚洲区总监、中国区首席代表杨宇对《环球时报》记者表示,未来重启的中国旅游市场会更加细分,也会出现更多新的旅行需求。 未来重启的中国旅游市场会更加细分,荷兰国家旅游会议促进局亚洲区总监、中国区首席代表杨宇对《环球时报》记者表示,也会出现更多新的旅行需求。 2 此外,国外的酒店从业者也非常期待中国游客“回归”。禧亚酒店及度假村集团大中华区品牌负责人张章告诉记者,作为马尔代夫最大的酒店集团之一,禧亚酒店及度假村集团旗下的5家岛屿度假酒店都已重启中国管家计划,重新召回中国籍宾客关系服务人员、中文管家、中国厨师等。 禧亚酒店及度假村集团旗下的5家岛屿度假酒店都已重启中国管家计划,禧亚酒店及度假村集团大中华区品牌负责人张章告诉记者,作为马尔代夫最大的酒店集团之一,
  • 输入参数说明 参数名称 参数描述 参数要求 doc_id_col 标识文章的id列 string类型;必填;仅支持一列 sentence_col 原文本列列名 string类型;必填;仅支持一列 sentence_sep 用于拆分句子的标点符号 string类型;必填;默认为",,。::“”??!!;;" top_n 输出的摘要句子个数 integer类型;必填;默认为3 remain_other_cols 是否保留id列和原文本列外的其他列 boolean类型;必填;默认为False
  • 样例 数据样本 id sentence 1 ball ball fun planet galaxy 2 referendum referendum fun planet planet 3 planet planet planet galaxy ball 4 planet galaxy planet referendum ball 配置流程 运行流程 参数设置 结果查看 P(Z) P(Z|D) P(D|Z) P(Z|W) vocab
  • 样例 数据输入 id text 1 在周六的早晨,我喜欢煎个鸡蛋,煮一杯红底薏米粥,窝在榻榻米中慢慢苏醒。 2 在一九一三年的五月,这座边陲小镇迎来了带领他们走向未来一百年繁华的人,这一天注定不平凡。 配置流程 运行流程 输入参数 输出结果 id text 1 在周六的早晨, 1 我喜欢煎个鸡蛋, 1 煮一杯红底薏米粥, 1 窝在榻榻米中慢慢苏醒。 2 在一九一三年的五月, 2 这座边陲小镇迎来了带领他们走向未来一百年繁华的人, 2 这一天注定不平凡。
共100000条