华为云首页用户手册

语音交互服务 SIS-提交录音文件识别任务:请求参数

语音交互服务 SIS-提交录音文件识别任务:请求参数

时间：2024-05-14 09:27:19

语音交互服务 SIS 录音文件识别接口

请求参数

表3 请求Header参数
参数	是否必选	参数类型	描述
X-Auth-Token	是	String	用户Token。用于获取操作API的权限。获取方法请参见认证鉴权。响应消息头中X-Subject-Token的值即为Token。
Enterprise-Project-Id	否	String	企业项目ID。SIS支持通过企业项目管理（EPS）对不同用户组和用户的资源使用，进行分账。获取方法：进入“企业项目管理”页面，单击企业项目名称，在企业项目详情页获取Enterprise-Project-Id（企业项目ID）。企业项目创建步骤请参见用户指南。说明：账户创建企业项目后，在传参时，有以下三类场景。携带正确的ID，正常使用SIS服务，账单归到企业ID对应的企业项目中。携带错误的ID，正常使用SIS服务，账单的企业项目会被分类为“default”。不携带ID，正常使用SIS服务，账单的企业项目会被分类为“default”。

表4 请求Body参数
参数	是否必选	参数类型	描述
config	是	TranscriberConfig object	录音文件识别配置信息。
data_url	是	String	存放录音文件地址：推荐使用华为云OBS：授权配置请参见配置OBS服务。您也可以把录音文件放在自行搭建服务器上，提供下载文件的地址。URL不能使用IP地址，只能使用域名，请尽量避免中文。

表5 TranscriberConfig
参数	是否必选	参数类型	描述
audio_format	否	String	支持语音的格式，请参考表 audioformat取值范围。
property	是	String	所使用的模型特征串。通常是“语种_采样率_领域”的形式，例如chinese_8k_common。采样率需要与音频采样率保持一致。当前支持如下模型特征串： chinese_8k_general（区域支持cn-north-4, cn-east-3，最新端到端通用模型，强烈推荐使用） chinese_16k_media（音视频领域，区域仅支持cn-north-4，cn-east-3，强烈推荐使用） chinese_8k_common（中文普通话语音识别） chinese_16k_conversation（会议场景的中文普通话语音识别） sichuan_8k_common（四川话识别，区域支持cn-north-4，cn-east-3） chinese_8k_bank（银行领域，区域仅支持cn-north-4） chinese_8k_insurance（保险领域，区域仅支持cn-north-4）
add_punc	否	String	表示是否在识别结果中添加标点，取值为yes 、 no，默认no。
callback_url	否	String	表示回调 url，即用户用于接收识别结果的服务器地址，不支持IP地址方式调用，url长度小于2048字节。服务请求方法为POST，请求体参见表响应参数。如果用户使用回调方式获取识别结果，需填写该参数，处理成功后用户服务器需返回状态码“200”。如果用户使用轮询方式获取识别结果，则无需填写该参数。
digit_norm	否	String	表示是否将语音中的数字识别为阿拉伯数字，取值为yes 、 no，默认为yes。
need_analysis_info	否	AnalysisInfo object	该参数用于设置质检分析参数，是否需要输出质检分析内容以及会议场景多说话人分离，如果为null , 表示不需要。
vocabulary_id	否	String	热词表id，不使用则不填写。创建热词表信息请参考创建热词表。
need_word_info	否	String	表示是否在识别结果中输出分词结果信息，取值为“yes”和“no”，默认为“no”。

表6 AnalysisInfo
参数	是否必选	参数类型	描述
diarization	否	Boolean	是否需要做话者分离。默认为true，表示会进行话者分离，识别结果中会包含role项（角色）。如果diarization为false，那么结果中不会出现role项。说明：本表中的参数对audio_format格式中采样率为8k和16k的音频有效。对于8k单声道音频，8k双声道音频以及16k双声道音频仅支持两个说话人分离；对于16k单声道音频，自动识别说话人个数，返回结果最多支持10个说话人，并且property仅支持chinese_16k_media，区域仅支持cn-east-3。
channel	否	String	语音文件声道信息，默认为MONO，可设置为MONO，LEFT_AGENT, RIGHT_AGENT。如果channel 为MONO，那么原始文件需要为单声道文件。如果为双声道文件，系统会将其转换成单声道文件，可能会影响识别效果。如果 channel 为 LEFT_AGENT或RIGHT_AGENT, 则原始文件需要为双声道文件，如果为单声道文件，系统会将其转换成双声道文件，识别结果会出现两条内容完全一致的文本。当channel 为 LEFT_AGENT或RIGHT_AGENT，且diarization为true时，系统会按照配置给出对应角色。其中： LEFT_AGENT 指定左声道语音为agent（坐席）。 RIGHT_AGENT 指定右声道为agent（坐席）。
emotion	否	Boolean	是否需要做情绪检测，默认为true。仅对audio_format格式中采样率为8k的音频有效。目前支持NORMAL（正常）、ANGRY（愤怒）和UNKNOWN（未知）情绪识别。
speed	否	Boolean	是否需要输出语速信息，默认为true。

表7 audio_format取值范围
audio_format取值	描述
auto	默认格式，系统自动判断，支持的音视频格式如下：WAV（内部支持pcm/ulaw/alaw/adpcm编码格式）、AMR、FLAC、M4A、MP3、OGG、WEBM、AAC、AC3、MOV、WMA、MP4、AVI、RMVB、MKV、FLV、F4V、WMV、3GP。支持双声道的音视频。
pcm16k16bit	16k16bit裸音频录音数据。
pcm8k16bit	8k16bit裸音频录音数据。
ulaw16k8bit	16k8bit ulaw 裸音频录音数据。
ulaw8k8bit	8k8bit ulaw 裸音频录音数据。
alaw16k8bit	16k8bit alaw 裸音频录音数据。
alaw8k8bit	8k8bit alaw 裸音频录音数据。

上一篇：语音交互服务 SIS-提交录音文件识别任务:响应参数

下一篇：语音交互服务 SIS-提交录音文件识别任务:响应参数

语音交互服务 SIS-提交录音文件识别任务:请求参数

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题