文字语音识别_Python

华为云智能语音识别

华为云实时语音识别是款优秀的文字语音识别产品,实时语音识别(Real-time ASR),将连续的音频流实时转换成文本,语音识别更快。可应用于直播实时字幕、会议实时记录、即时文本生成等场景。


使用前必读

用户需要具备编程能力,熟悉Java、Python等编程语言。

用户通过调用API接口,将语音文件识别成可编辑的文本,然后返回JSON格式的识别结果,用户需要通过编码将识别结果对接到业务系统或保存为TXT、Excel等格式。

文字语音识别应用场景

华为云语音转文字试用场景

  • 语音客服质检:

    ● 语音转文字识别客服、客户的语音,转换为文本。进一步通过文本检索,检查有没有违规、敏感词、电话号码等信息。

  • 会议记录:

    ● 语音转文字服务对会议记录的音频文件,进行快速的识别,转化成文字,方便进行会议记录。

  • 语音短消息:

    ● 语音转文字服务通过语音发送或者接收短消息时,将音频短消息转文字,提升阅读效率和交互体验。

  • 游戏娱乐:

    ● 语音转文字服务将游戏娱乐中的语音聊天转成文字消息,提升用户阅读效率,提升用户体验。

  • 有声读物:

    ● 语音转文字服务将书籍、杂志、新闻的文本内容转换成逼真的人声发音,充分解放人们的眼睛,在搭乘地铁、开车、健身等场景下获取信息、享受乐趣。

  • 电话回访:

    ● 在客服系统场景中,语音转文字服务通过将回访内容转换成人声,直接使用语音和客户交流,提升用户体验。

  • 智能教育:

    ● 集成语音合成的教育系统可以实现中文标准朗读及带读,语音转文字服务应用于课堂和学生自学,提升教学效率。

  • 直播实时字幕:

    ● 语音转文字服务将视频直播或现场直播中的音频实时转为字幕,为观众提供更高效的观会体验,方便对直播内容进行监控。

  • 会议实时记录:

    ● 语音转文字服务将视频或电话会议中的音频实时转为文字,可实时校核、修改及检索转写会议内容,提高会议效率。

展开内容
收起内容

文字语音识别常见问题

文字语音识别常见问题

为您解答语音识别python,电脑语音识别输入法等常见问题

为您解答语音识别python,电脑语音识别输入法等常见问题

  • 什么是语音交互服务?

    语音交互服务(Speech Interaction Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API(Application Programming Interface,应用程序编程接口)获取语音交互结果。例如用户通过语音识别功能,将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。

  • 语音识别支持哪些语言?

    · 录音文件识别、语音合成支持中文普通话。

    · 一句话识别和实时语音识别支持中文普通话,带方言口音的普通话和方言(四川话、粤语和上海话)。

  • 语音合成后输出的音频格式是什么?

    语音合成后返回一组Base64编码格式的语音数据,用户需要用编程语言或者sdk将返回的Base64编码格式的数据解码成byte数组,再保存为wav格式的音频。

  • 语音识别是否支持离线使用?

    暂时不支持离线使用。

  • 语音识别如何收费?

    语音服务收费是按照调用接口的次数或者时长来计算费用,详细收费明细请参见价格计算器

    支持两种计费方式:

    · 按需计费,默认计费方式为“按需计费”。

    · 折扣套餐包方式,是用户可以购买套餐包,扣费时调用次数会先在套餐包内进行抵扣,抵扣完后的剩余调用量默认转回按需计费方式。

  • 语音识别服务的区域如何选择?

    不同区域的资源之间内网不互通。为保证网络的连通性,降低网络时延、提高访问速度,请选择靠近您客户的区域,当前语音服务支持北京和上海区域,后续会陆续上线其他区域,当前支持的区域请参见地区与终端节点。

    · 华北-北京一,该区域资源有限,当前仅支持已选择该区域的老用户使用,新用户不可见,后续该区域不可用。

    · 华北-北京四,为推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。

    · 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。

  • 语音识别服务是否支持私有化部署?

    目前语音交互服务暂不支持私有化部署。

  • 是否支持aac格式的语音文件转文字?

    一句话识别和录音文件识别以及实时语音识别均可实现语音转文字,一句话识别支持aac格式,录音文件识别和实时语音识别不支持aac格式。

  • 语音合成后能否返回播放时长?

    不能,当前语音合成无此参数。若需要知道语音时长,可以将返回语音数据解码转换成音频格式,播放后查看。

  • 实时语音识别多人同时使用,如何区分各自识别结果?

    每个用户独立建立websocket连接,不可共用一个websocket连接。

电脑语音识别相关推荐

录音文件识别

录音文件识别,基于深度学习技术,可以实现5小时以内的音频到文字的转换。支持垂直领域定制,对应领域转换效果更佳。

一句话识别

短语音识别将口述音频转换为文本,通过API调用识别不超过一分钟的不同音频源发来的音频流或音频文件。适用于语音搜索、人机交互等语音交互识别场景。

文字语音识别使用必看文档

  • 实时语音识别功能介绍

    实时语音识别服务,用户通过实时访问和调用API获取实时语音识别结果,支持的语言包含中文普通话、方言,方言当前支持四川话、粤语和上海话。

    实时语音识别服务,用户通过实时访问和调用API获取实时语音识别结果,支持的语言包含中文普通话、方言,方言当前支持四川话、粤语和上海话。

  • 语音识别与其他云服务的关系

    SIS服务接口支持从对象存储服务上采用临时授权和匿名公开授权的方式获取数据并进行处理。录音文件识别支持从OBS上采用授权的方式获取数据并进行处理。

    SIS服务接口支持从对象存储服务上采用临时授权和匿名公开授权的方式获取数据并进行处理。录音文件识别支持从OBS上采用授权的方式获取数据并进行处理。

  • 文字语音识别约束与限制

    实时语音识别约束与限制支持“华北-北京一”、“华北-北京四”、“华东-上海一”区域。音频采样率8KHz或者16KHz,采样位数8bit或者16bit。支持中文普通话、方言的语音识别。

    实时语音识别约束与限制支持“华北-北京一”、“华北-北京四”、“华东-上海一”区域。音频采样率8KHz或者16KHz,采样位数8bit或者16bit。支持中文普通话、方言的语音识别。

  • 语音交互服务使用简介

    语音交互服务是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。华为云SIS服务支持调用一句话识别、录音文件识别、实时语言识别、语音合成接口等。

    语音交互服务是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。华为云SIS服务支持调用一句话识别、录音文件识别、实时语言识别、语音合成接口等。

  • 调用API实现一句话识别功能

    本章节提供了通过Postman调用一句话识别API的样例,详细介绍如何调用一句话识别API接口,帮助您快速熟悉语音交互服务的使用方法。调用SIS服务的具体操作如下

    本章节提供了通过Postman调用一句话识别API的样例,详细介绍如何调用一句话识别API接口,帮助您快速熟悉语音交互服务的使用方法。调用SIS服务的具体操作如下

  • 调用Java SDK实现一句话识别功能

    语音交互服务软件开发工具包(SIS SDK)是对语音交互服务提供的REST API进行的封装,用户直接调用语音交互SDK提供的接口函数即可实现使用语音交互业务能力的目的

    语音交互服务软件开发工具包(SIS SDK)是对语音交互服务提供的REST API进行的封装,用户直接调用语音交互SDK提供的接口函数即可实现使用语音交互业务能力的目的