文本-华为云

AI开发平台MODELARTS-文本分类:样例

样例数据样本 id sentence label 1 ball ball fun planet galaxy 1 2 referendum referendum fun planet planet 0 3 planet planet planet galaxy ball 1 4 planet galaxy planet referendum ball 1 sentence ball ball ball referendum referendum planet planet ball 配置流程运行流程参数设置结果查看 sentence words rawFeatures features rawPrediction probability prediction ball ball ball ['ball', 'ball', 'ball'] (8000,[5492],[3.0]) (8000,[5492],[0.6694306539426294]) [-7.115045557028399,-5.9949311191899355] [0.24599005712406302,0.7540099428759369] 1 referendum referendum ['referendum', 'referendum'] (8000,[999],[2.0]) (8000,[999],[1.0216512475319814]) [-9.561433564101923,-9.165985052719044] [0.402406373461625,0.5975936265383749] 1 planet planet ball ['planet', 'planet', 'ball'] (8000,[5492,6309],[1.0,2.0]) (8000,[5492,6309],[0.22314355131420976,0.0]) [-3.104090044788206,-2.2686204451354213] [0.3024897957164007,0.6975102042835993] 1

AI开发平台MODELARTS 文本

AI开发平台MODELARTS-文本分类:参数说明

参数说明参数是否必选参数说明默认值 sentence_col 是文本列 "sentence" label_col 是标签列（标签值需整数或浮点型） "label" words_col 否用于分词后保存words的列名 "words" feature_col 否用于保存feature的列名 "features" min_doc_freq 否最小词数阈值 0 smoothing 否平滑指数 1.0 prediction_col 否用于保存prediction的列名 "prediction" raw_prediction_col 否用于保存raw_prediction的列名 "raw_prediction" probability_col 否用于保存probability的列名 "probability" raw_features_col 否用于保存raw_features的列名 "raw_features" tf_num_features 否 tf-idf时用于保存的词的数量，建议不小于词汇种类 8000

AI开发平台MODELARTS 文本

智能数据洞察 DATAARTS INSIGHT-跑马灯:样式

样式尺寸位置 W：设置图表的宽，单位为px。 H：设置图表的高，单位px。 X：设置图表在画布中的位置。单位为px。 Y：设置图表在画布中的位置。单位为px。不透明度：设置图表在画布上的透明度，可通过滑动条进行设置，也可手动输入百分比，比例越大透明程度越低。图1 尺寸位置全局样式颜色：支持对跑马灯中颜色的设置。字号：文本字号大小设置范围10~100。字体：支持对本文字体设置，默认字体微软雅黑。字体粗细：支持设置文本粗细。轮播：用户可自定义设置轮播时长。时间间隔：用户可自定义设置轮播播放时间间隔。定速播放：对播放速度的设置，用户自定义。

智能数据洞察 DATAARTS INSIGHT 制作文本

数据仓库服务 GAUSSDB(DWS)-解析查询:to_tsquery

to_tsquery to_tsquery将查询转换为tsquery数据类型。 to_tsquery([ config regconfig, ] querytext text) returns tsquery to_tsquery从querytext中创建一个tsquery，querytext必须由布尔运算符& (AND)、| (OR)和! (NOT)分割的单个token组成。这些运算符可以用圆括弧分组。也就是说，to_tsquery输入必须遵循tsquery输入的通用规则，具体请参见文本搜索类型。不同的是基本tsquery以token表面值作为输入，而to_tsquery使用指定或默认分词器将每个token标准化成词素，并依据分词器丢弃属于停用词的token。例如： 1 2 3 4 5 SELECT to_tsquery('english', 'The & Fat & Rats'); to_tsquery --------------- 'fat' & 'rat' (1 row) 像在基本tsquery中的输入一样，权重可以附加到每个词素来限制它只匹配那些有相同weight(s)的tsvector词素。比如： 1 2 3 4 5 SELECT to_tsquery('english', 'Fat | Rats:AB'); to_tsquery ------------------ 'fat' | 'rat':AB (1 row) 同时，符号“*”也可以附加到词素来指定前缀匹配： 1 2 3 4 5 SELECT to_tsquery('supern:*A & star:A*B'); to_tsquery -------------------------- 'supern':*A & 'star':*AB (1 row) 这样的词素将匹配tsquery中指定字符串和权重的项。

数据仓库服务 GAUSSDB(DWS) 控制文本搜索

数据仓库服务 GAUSSDB(DWS)-解析查询:plainto_tsquery

plainto_tsquery plainto_tsquery将未格式化的文本querytext变换为tsquery。类似于to_tsvector，文本被解析并且标准化，然后在存在的词之间插入&(AND)布尔算子。 plainto_tsquery([ config regconfig, ] querytext text) returns tsquery 比如： 1 2 3 4 5 SELECT plainto_tsquery('english', 'The Fat Rats'); plainto_tsquery ----------------- 'fat' & 'rat' (1 row) 请注意，plainto_tsquery无法识别布尔运算符、权重标签，或在其输入中的前缀匹配标签： 1 2 3 4 5 SELECT plainto_tsquery('english', 'The Fat & Rats:C'); plainto_tsquery --------------------- 'fat' & 'rat' & 'c' (1 row) 在这里，所有输入的标点符号作为空格符号丢弃。

数据仓库服务 GAUSSDB(DWS) 控制文本搜索

数据仓库服务 GAUSSDB(DWS)-排序查询结果

排序查询结果排序试图针对特定查询衡量文档的相关度，从而将众多的匹配文档中相关度最高的文档排在最前。GaussDB(DWS)提供了两个预置的排序函数。函数考虑了词法，距离，和结构信息；也就是，考虑查询词在文档中出现的频率、紧密程度、以及出现的地方在文档中的重要性。然而，相关性的概念是模糊的，并且是跟应用强相关的。不同的应用程序可能需要额外的信息来排序，比如，文档的修改时间，内置的排序函数等。也可以开发自己的排序函数或者采用附加因素组合这些排序函数的结果来满足特定需求。两个预置的排序函数： 1 ts_rank([ weights float4[], ] vector tsvector, query tsquery [, normalization integer ]) returns float4 基于词素匹配率对vector进行排序： 1 ts_rank_cd([ weights float4[], ] vector tsvector, query tsquery [, normalization integer ]) returns float4 该函数需要位置信息的输入。因此它不能在"剥离"tsvector值的情况下运行—它将总是返回零。对于这两个函数，可选的weights参数提供给词加权重的能力，词的权重大小取决于所加的权值。权重阵列指定在排序时为每类词汇加多大的权重。 {D-weight, C-weight, B-weight, A-weight} 如果没有提供weights，则使用缺省值：{0.1, 0.2, 0.4, 1.0} 通常的权重是用来标记文档特殊领域的词，如标题或最初的摘要，所以相对于文章主体中的词它们有着更高或更低的重要性。由于较长的文档有更多的机会包含查询词，因此有必要考虑文档的大小。例如，包含有5个搜索词的一百字文档比包含有5个搜索词的一千字文档相关性更高。两个预置的排序函数都采用了一个整型的标准化选项来定义文档长度是否影响排序及如何影响。这个整型选项控制多个行为，所以它是一个屏蔽字：可以使用|指定一个或多个行为（例如，2|4）。 0（缺省）表示：跟长度大小没有关系 1表示：排名（rank）除以(文档长度的对数+1) 2表示：排名除以文档的长度 4表示：排名除以两个扩展词间的调和平均距离。只能使用ts_rank_cd实现 8表示：排名除以文档中单独词的数量 16表示：排名除以单独词数量的对数+1 32表示：排名除以排名本身+1 当指定多个标志位时，会按照所列的顺序依次进行转换。需要特别注意的是，排序函数不使用任何全局信息，所以不可能产生一个某些情况下需要的1%或100%的理想标准值。标准化选项32 (rank/(rank+1))可用于所有规模的从零到一之间的排序。需要注意的是：这只是一个表面变化，并不会影响搜索结果的排序。下面是一个例子，仅选择排名前十的匹配：由于SQL_ASCII的数据库编码格式不支持中文字符，请在Encoding为UTF8/GBK的数据库中执行以下示例： 1 2 3 4 5 6 7 8 9 10 11 12 SELECT id, title, ts_rank_cd(to_tsvector(body), query) AS rank FROM tsearch.pgweb, to_tsquery('science') query WHERE query @@ to_tsvector(body) ORDER BY rank DESC LIMIT 10; id | title | rank ----+---------+------ 11 | Philology | .2 2 | Mathematics | .1 12 | Geography | .1 13 | Computer science | .1 (4 rows) 这是使用标准化排序的相同例子： 1 2 3 4 5 6 7 8 9 10 11 12 SELECT id, title, ts_rank_cd(to_tsvector(body), query, 32 /* rank/(rank+1) */ ) AS rank FROM tsearch.pgweb, to_tsquery('science') query WHERE query @@ to_tsvector(body) ORDER BY rank DESC LIMIT 10; id | title | rank ----+---------+---------- 11 | Philology | .166667 2 | Mathematics | .0909091 12 | Geography | .0909091 13 | Computer science | .0909091 (4 rows) 下面是使用中文分词法排序查询的例子： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 CREATE TABLE tsearch.ts_zhparser(id int, body text); INSERT INTO tsearch.ts_zhparser VALUES(1, '排序'); INSERT INTO tsearch.ts_zhparser VALUES(2, '排序查询'); INSERT INTO tsearch.ts_zhparser VALUES(3, '查询排序'); --精确匹配 SELECT id, body, ts_rank_cd(to_tsvector('zhparser',body), query) AS rank FROM tsearch.ts_zhparser, to_tsquery('排序') query WHERE query @@ to_tsvector(body); id | body | rank ----+------+------ 1 | 排序 | .1 (1 row) --模糊匹配 SELECT id, body, ts_rank_cd(to_tsvector('zhparser',body), query) AS rank FROM tsearch.ts_zhparser, to_tsquery('排序') query WHERE query @@ to_tsvector('zhparser',body); id | body | rank ----+----------+------ 3 | 查询排序 | .1 1 | 排序 | .1 2 | 排序查询 | .1 (3 rows) 排序要遍历每个匹配的tsvector，因此资源消耗多，可能会因为I/O限制导致排序慢。可是这是很难避免的，因为实际查询中通常会有大量的匹配。父主题：控制文本搜索

数据仓库服务 GAUSSDB(DWS) 控制文本搜索

AI开发平台MODELARTS-文本分类:标注文本

标注文本标注作业详情页中，展示了此标注作业中“未标注”和“已标注”的文本，默认显示“未标注”的文本列表。在“未标注”页签文本列表中，页面左侧罗列“标注对象列表”。在列表中单击需标注的文本对象，选择右侧“标签集”中的标签进行标注。一个标注对象可添加多个标签。以此类推，不断选中标注对象，并为其添加标签。图2 文本分类标注当所有的标注对象都已完成标注，单击页面下方“保存当前页”，完成“未标注”列表的文本标注。

AI开发平台MODELARTS 文本标注

AI开发平台MODELARTS-文本分类:修改标注

修改标注当数据完成标注后，您还可以进入已标注页签，对已标注的数据进行修改。基于文本修改在标注作业详情页，单击“已标注”页签，然后在文本列表中选中待修改的文本。在文本列表中，单击文本，当文本背景变为蓝色时，表示已选择。当文本有多个标签时，可以单击文本标签上方的删除单个标签。基于标签修改在标注作业详情页，单击“已标注”页签，在图片列表右侧，显示全部标签的信息。批量修改：在“全部标签”区域中，单击操作列的编辑图标，然后在文本框中修改标签名称，选择标签颜色，单击“确定”完成修改。批量删除：在“全部标签”区域中，单击操作列的删除图标，在弹出对话框中，可选择“仅删除标签”或“删除标签及仅包含此标签的标注对象”，然后单击“确定”。

AI开发平台MODELARTS 文本标注

AI开发平台MODELARTS-文本分类:同步新数据

同步新数据 ModelArts会自动将数据集中新增的数据同步至标注作业，包含数据及当前标注作业支持的标注信息。为了快速获取数据集中最新数据，可在标注作业详情页的“未标注”页签中，单击“同步新数据”，快速将数据集中的数据添加到标注作业中。问题现象：将已标注好的数据上传至OBS，同步数据后，显示为未标注。原因分析：可能是OBS桶设置了自动加密导致此问题。解决方法：需要新建OBS桶重新上传数据，或者取消桶加密后，重新上传数据。

AI开发平台MODELARTS 文本标注

AI开发平台MODELARTS-数据标注:添加或删除数据

添加或删除数据自动学习项目中，数据来源为数据集中输入位置对应的OBS目录，当目录下的数据无法满足现有业务时，您可以在ModelArts自动学习页面中，添加或删除数据。添加文件在“未标注”页签下，可单击页面左上角的“添加数据”，您可以在弹出对话框中，选择本地文件上传。上传文件格式需满足文本分类型的数据集要求。删除文本对象在“已标注”页签或“未标注”页签下，选中需要删除的文本对象，单击页面左上角的“删除”，在弹出的对话框中，确认删除信息后，单击“确定”。在“已标注”页签下，您还可以勾选“选择当前页”，单击“删除”，即可删除当前页下所有的文本对象及其标注信息。

AI开发平台MODELARTS 文本分类

AI开发平台MODELARTS-数据标注:修改标签

修改标签针对文本分类的自动学习项目，项目创建成功后，您可以根据业务变化，修改用于标注的标签。支持添加、修改和删除标签。添加标签在“未标注”页签下，单击“标签集”右侧的加号，在弹出“新增标签”对话框中，设置“标签名称”和“标签颜色”，然后单击“确定”完成标签添加。修改标签在“已标注”页签中“全部标签”的下方操作列，选择需要修改的标签，单击操作列的编辑图标，在弹出“修改标签”对话框中，修改“标签名称”或“标签颜色”，然后单击“确定”完成标签修改。删除标签在“已标注”页签中“全部标签”的下方，选择需要删除的标签，单击操作列的删除图标，在弹出“删除”对话框中，选择“仅删除标签”或“删除标签及仅包含此标签的标注对象”，然后单击“确定”完成标签删除。所有的删除操作均不可恢复，请谨慎操作。

AI开发平台MODELARTS 文本分类

ASTRO轻应用 ASTROZERO-翻牌器:卡片

卡片卡片是指包裹图表组件的外层架构，可以理解为组件由卡片中基础元素（卡片标题、图表、卡片背景、卡片边框）和图表元素构成。图3 卡片背景背景色：设置组件卡片的背景颜色。边框：组件卡片边框设置，支持无边框、全边框和角边框三种样式。设置为全边框和角边框时，支持设置组件外圈边框的线型、圆角等。样式：选择图片时，图片显示的样式，支持普通、居中、拉伸和平铺四种样式。选择图片：使用本地的图片作为组件背景，支持新增目录和子目录，便于对图片进行分类管理。推荐使用JPG、JPEG、PNG或GIF格式的图片，且每张图片不能超过50MB。特效：组件是否高亮显示，支持默认展示和跳转到页面时展示。边距：组件中图表距离整个组件四边（上、下、左、右，如图2）的距离，默认为0，即铺满整个组件。上边距：图表到组件边框顶部的距离。右边距：图表到组件边框右侧的距离。左边距：图表到组件边框左侧的距离。

ASTRO轻应用 ASTROZERO 文本

ASTRO轻应用 ASTROZERO-翻牌器:配置

配置在配置中，设置翻牌器组件的样式和动画。图4 配置样式设置字体：设置翻牌器字体、大小和颜色等。数字背景色：设置翻牌器数字背景颜色。数字间隔：设置翻牌器数字之间的距离。卡片内边距：设置卡片距离组件边框的距离。千分逗号：是否显示千分逗号，默认为显示。标题：翻牌器标题是否显示，默认为隐藏。设置为显示时，支持设置标题的内容、大小、字体等。单位：是否显示单位，默认为隐藏。设置为显示时，支持设置单位内容和单位字体等。动画设置动画类型：设置翻牌器动画类型，支持普通类型、滚动类型和翻牌类型。动画时间：设置动画时间，单位为ms。单次变换间隔：设置动画单次变换间隔时间，单位为ms。

ASTRO轻应用 ASTROZERO 文本

ASTRO轻应用 ASTROZERO-指标:卡片

卡片卡片是指包裹图表组件的外层架构，可以理解为组件由卡片中基础元素（卡片标题、图表、卡片背景、卡片边框）和图表元素构成。图3 卡片卡片装饰：卡片装饰设置，可根据自身的业务需求选择不同的卡片样式。单击“清除样式”，可清除已设置的装饰样式。标题：组件是否显示标题。设置为显示时，支持设置如下属性。图4 组件标题内容：自定义标题的内容。字体：设置自定义标题的字体、大小和颜色等。对齐：设置标题的对齐方式，如左对齐、居中或右对齐。标题背景色：设置标题的背景颜色。内边距：设置标题距离组件上下左右边界的距离。图5 设置上边距标题偏移量：设置标题与指标之间的距离。图6 标题偏移量背景背景色：设置组件卡片的背景颜色。边框：组件卡片边框设置，支持无边框、全边框和角边框三种样式。设置为全边框和角边框时，支持设置组件外圈边框的线型、圆角等。样式：选择图片时，图片显示的样式，支持普通、居中、拉伸和平铺四种样式。选择图片：使用本地的图片作为组件背景，支持新增目录和子目录，便于对图片进行分类管理。推荐使用JPG、JPEG、PNG或GIF格式的图片，且每张图片不能超过50MB。特效：组件是否高亮显示，支持默认展示和跳转到页面时展示。

ASTRO轻应用 ASTROZERO 文本

内容审核 MODERATION-文本内容审核（v2）

文本内容审核（v2）本章节对文本内容审核AK/SK方式使用SDK进行示例说明。示例代码中修改TextDetectionItemsReq的text值配置待检测的文本信息，配置完成后运行即可。服务所在的应用区域和终端节点，详情请查看地区和终端节点。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 # coding: utf-8 from huaweicloudsdkcore.auth.credentials import BasicCredentials from huaweicloudsdkcore.exceptions import exceptions from huaweicloudsdkmoderation.v2.region.moderation_region import ModerationRegion from huaweicloudsdkmoderation.v2 import ModerationClient,RunTextModerationRequest,TextDetectionItemsReq,TextDetectionReq import os if __name__ == "__main__": # 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全； # 本示例以ak和sk保存在环境变量中来实现身份验证为例，运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 ak = os.getenv("HUAWEICLOUD_SDK_AK") sk = os.getenv("HUAWEICLOUD_SDK_SK") credentials = BasicCredentials(ak, sk) client = ModerationClient.new_builder() \ .with_credentials(credentials) \ .with_region(ModerationRegion.value_of("xxx")) \ //把xxx替换成服务所在的区域，例如北京四：cn-north-4。 .build() try: request = RunTextModerationRequest() listTextDetectionItemsReqItemsbody = [ TextDetectionItemsReq( text="text", //此处输入待检测文本 type="content" ) ] listTextDetectionReqCategoriesbody = [ "porn", "ad", "abuse", "contraband", "flood" ] request.body = TextDetectionReq( items=listTextDetectionItemsReqItemsbody, categories=listTextDetectionReqCategoriesbody ) response = client.run_text_moderation(request) print(response.status_code) print(response) except exceptions.ClientRequestException as e: print(e.status_code) print(e.request_id) print(e.error_code) print(e.error_msg) 控制台输出200即表示程序执行成功，文本内容审核结果输出到控制台。 200 {"result": {"suggestion": "block", "detail": {"contraband": ["亚砷酸钾"], "porn": ["luo聊"]}}}} 父主题：文本审核

内容审核 MODERATION 文本审核

云服务器内容精选

文本

7*24

备案

专业服务

退订

建议反馈

售前咨询热线