语音交互服务 SIS-提交录音文件识别任务:请求参数

时间:2024-05-14 09:27:19

请求参数

表3 请求Header参数

参数

是否必选

参数类型

描述

X-Auth-Token

String

用户Token。

用于获取操作API的权限。获取方法请参见认证鉴权。响应消息头中X-Subject-Token的值即为Token。

Enterprise-Project-Id

String

企业项目ID。SIS支持通过企业项目管理(EPS)对不同用户组和用户的资源使用,进行分账。

获取方法:进入“企业项目管理”页面,单击企业项目名称,在企业项目详情页获取Enterprise-Project-Id(企业项目ID)。

企业项目创建步骤请参见用户指南。

说明:

账户创建企业项目后,在传参时,有以下三类场景。

  • 携带正确的ID,正常使用SIS服务,账单归到企业ID对应的企业项目中。
  • 携带错误的ID,正常使用SIS服务,账单的企业项目会被分类为“default”。
  • 不携带ID,正常使用SIS服务,账单的企业项目会被分类为“default”。
表4 请求Body参数

参数

是否必选

参数类型

描述

config

TranscriberConfig object

录音文件识别配置信息。

data_url

String

存放录音文件地址:

  • 推荐使用华为云OBS:授权配置请参见配置OBS服务
  • 您也可以把录音文件放在自行搭建服务器上,提供下载文件的地址。URL不能使用IP地址,只能使用域名,请尽量避免中文。
表5 TranscriberConfig

参数

是否必选

参数类型

描述

audio_format

String

支持语音的格式,请参考表 audioformat取值范围

property

String

所使用的模型特征串。通常是“语种_采样率_领域”的形式,例如chinese_8k_common。

采样率需要与音频采样率保持一致。

当前支持如下模型特征串:

  • chinese_8k_general(区域支持cn-north-4, cn-east-3,最新端到端通用模型,强烈推荐使用)
  • chinese_16k_media(音视频领域,区域仅支持cn-north-4,cn-east-3,强烈推荐使用)
  • chinese_8k_common(中文普通话语音识别)
  • chinese_16k_conversation(会议场景的中文普通话语音识别)
  • sichuan_8k_common(四川话识别,区域支持cn-north-4,cn-east-3)
  • chinese_8k_bank(银行领域,区域仅支持cn-north-4)
  • chinese_8k_insurance(保险领域,区域仅支持cn-north-4)

add_punc

String

表示是否在识别结果中添加标点,取值为yes 、 no,默认no。

callback_url

String

表示回调 url,即用户用于接收识别结果的服务器地址,不支持IP地址方式调用,url长度小于2048字节。服务请求方法为POST,请求体参见表 响应参数

  • 如果用户使用回调方式获取识别结果,需填写该参数,处理成功后用户服务器需返回状态码“200”
  • 如果用户使用轮询方式获取识别结果,则无需填写该参数。

digit_norm

String

表示是否将语音中的数字识别为阿拉伯数字,取值为yes 、 no,默认为yes。

need_analysis_info

AnalysisInfo object

该参数用于设置质检分析参数,是否需要输出质检分析内容以及会议场景多说话人分离,如果为null , 表示不需要。

vocabulary_id

String

热词表id,不使用则不填写。

创建热词表信息请参考创建热词表

need_word_info

String

表示是否在识别结果中输出分词结果信息,取值为“yes”“no”,默认为“no”

表6 AnalysisInfo

参数

是否必选

参数类型

描述

diarization

Boolean

是否需要做话者分离。

默认为true,表示会进行话者分离,识别结果中会包含role项(角色)。

如果diarization为false,那么结果中不会出现role项。

说明:

本表中的参数对audio_format格式中采样率为8k和16k的音频有效。对于8k单声道音频,8k双声道音频以及16k双声道音频仅支持两个说话人分离;对于16k单声道音频,自动识别说话人个数,返回结果最多支持10个说话人,并且property仅支持chinese_16k_media,区域仅支持cn-east-3。

channel

String

语音文件声道信息,默认为MONO,可设置为MONO,LEFT_AGENT, RIGHT_AGENT。

如果channel 为MONO,那么原始文件需要为单声道文件。

如果为双声道文件,系统会将其转换成单声道文件,可能会影响识别效果。

如果 channel 为 LEFT_AGENT或RIGHT_AGENT, 则原始文件需要为双声道文件,如果为单声道文件,系统会将其转换成双声道文件,识别结果会出现两条内容完全一致的文本。

当channel 为 LEFT_AGENT或RIGHT_AGENT,且diarization为true时,系统会按照配置给出对应角色。其中:

  • LEFT_AGENT 指定左声道语音为agent(坐席)。
  • RIGHT_AGENT 指定右声道为agent(坐席)。

emotion

Boolean

是否需要做情绪检测,默认为true。仅对audio_format格式中采样率为8k的音频有效。

目前支持NORMAL(正常)、ANGRY(愤怒)和UNKNOWN(未知)情绪识别。

speed

Boolean

是否需要输出语速信息,默认为true。

表7 audio_format取值范围

audio_format取值

描述

auto

默认格式,系统自动判断,支持的音视频格式如下:WAV(内部支持pcm/ulaw/alaw/adpcm编码格式)、AMR、FLAC、M4A、MP3、OGG、WEBM、AAC、AC3、MOV、WMA、MP4、AVI、RMVB、MKV、FLV、F4V、WMV、3GP。支持双声道的音视频。

pcm16k16bit

16k16bit裸音频录音数据。

pcm8k16bit

8k16bit裸音频录音数据。

ulaw16k8bit

16k8bit ulaw 裸音频录音数据。

ulaw8k8bit

8k8bit ulaw 裸音频录音数据。

alaw16k8bit

16k8bit alaw 裸音频录音数据。

alaw8k8bit

8k8bit alaw 裸音频录音数据。

support.huaweicloud.com/api-sis/sis_03_0092.html