什么是语音识别

什么是语音识别?

语音识别,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。


语音识别有哪些优势?

识别准确率高:采用最新一代语音识别技术,基于深度神经网络(Deep Neural Networks,简称DNN)技术,大大提高了抗噪性能,使识别准确率显著提升。

识别速度快:把语言模型、词典和声学模型统一集成为一个大的神经网络,同时在工程上进行了大量的优化,大幅提升解码速度,使识别速度在业内处于领先地位。

多种识别模式:支持多种实时语音识别模式,如流式识别、连续识别和实时识别模式,灵活适应不同应用场景。

定制化服务:可定制特定垂直领域的语言层模型,可识别更多专有词汇和行业术语,进一步提高识别准确率。

展开详情

语音识别适用于哪些场景

  • 语音客服质检

    识别客服、客户的语音,转换为文本。进一步通过文本检索,检查有没有违规、敏感词、电话号码等信息。

    识别客服、客户的语音,转换为文本。进一步通过文本检索,检查有没有违规、敏感词、电话号码等信息。

  • 会议记录

    对会议记录的音频文件,进行快速的识别,转化成文字,方便进行会议记录。

    对会议记录的音频文件,进行快速的识别,转化成文字,方便进行会议记录。

  • 语音短消息

    通过语音发送或者接收短消息时,将音频短消息转文字,提升阅读效率和交互体验。

    通过语音发送或者接收短消息时,将音频短消息转文字,提升阅读效率和交互体验。

  • 游戏娱乐

    将游戏娱乐中的语音聊天转成文字消息,提升用户阅读效率,提升用户体验。

    将游戏娱乐中的语音聊天转成文字消息,提升用户阅读效率,提升用户体验。

  • 有声读物

    将书籍、杂志、新闻的文本内容转换成逼真的人声发音,充分解放人们的眼睛,在搭乘地铁、开车、健身等场景下获取信息、享受乐趣。

    将书籍、杂志、新闻的文本内容转换成逼真的人声发音,充分解放人们的眼睛,在搭乘地铁、开车、健身等场景下获取信息、享受乐趣。

  • 电话回访

    在客服系统场景中,通过将回访内容转换成人声,直接使用语音和客户交流,提升用户体验。

    在客服系统场景中,通过将回访内容转换成人声,直接使用语音和客户交流,提升用户体验。

  • 智能教育

    集成语音合成的教育系统可以实现中文标准朗读及带读,应用于课堂和学生自学,提升教学效率。

    集成语音合成的教育系统可以实现中文标准朗读及带读,应用于课堂和学生自学,提升教学效率。

  • 直播实时字幕

    将视频直播或现场直播中的音频实时转为字幕,为观众提供更高效的观会体验,方便对直播内容进行监控。

    将视频直播或现场直播中的音频实时转为字幕,为观众提供更高效的观会体验,方便对直播内容进行监控。

  • 会议实时记录

    将视频或电话会议中的音频实时转为文字,可实时校核、修改及检索转写会议内容,提高会议效率。

    将视频或电话会议中的音频实时转为文字,可实时校核、修改及检索转写会议内容,提高会议效率。

  • 即时文本录入

    手机App上实时录音并即时提供转写的文本,例如语音输入法等。

    手机App上实时录音并即时提供转写的文本,例如语音输入法等。

  • 人机交互

    通过语音合成,实现高品质的机器人发声,使得人机交互更加自然。

    通过语音合成,实现高品质的机器人发声,使得人机交互更加自然。

  • 智能客服

    借助语音合成,联络中心可以用自然的声音与客户互动。

    借助语音合成,联络中心可以用自然的声音与客户互动。

语音识别的功能和技术用途介绍

  • 实时语音识别

    实时语音识别服务,用户通过实时访问和调用API获取实时语音识别结果,支持的语言包含中文普通话、方言,方言当前支持四川话、粤语和上海话。

    实时语音识别服务,用户通过实时访问和调用API获取实时语音识别结果,支持的语言包含中文普通话、方言,方言当前支持四川话、粤语和上海话。

  • 一句话识别

    可以实现1分钟以内音频到文字的转换。对于用户上传的二进制音频格式数据,系统经过处理,生成语音对应的文字,支持的语言包含中文普通话、方言。

    可以实现1分钟以内音频到文字的转换。对于用户上传的二进制音频格式数据,系统经过处理,生成语音对应的文字,支持的语言包含中文普通话、方言。

  • 录音文件识别

    对于录制的长语音进行识别,转写成文字,提供不同领域模型,具备良好的可扩展性,支持热词定制。

    对于录制的长语音进行识别,转写成文字,提供不同领域模型,具备良好的可扩展性,支持热词定制。

  • 电话通信的语音拨号

    特别是在中、高档移动电话上,现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。

    特别是在中、高档移动电话上,现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。

  • 汽车的语音控制

    由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。

    由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。

  • 工业控制及医疗领域

    当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。

    当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。

语音识别的计费模式

  • 收起 展开
    按需计费 收起 展开

    按需计费是指按照API调用次数阶梯价格计费,计费价格参见语音交互价格计算器

    查看详情
  • 收起 展开
    折扣套餐包 收起 展开

    折扣套餐包方式是用户可以购买套餐包,扣费时调用次数会先在套餐包内进行抵扣,抵扣完后的剩余调用量默认转回按需计费方式,计费价格参见语音交互价格计算器。

    说明:

    1、购买套餐包前,请进行账号实名认证。

    2、如您有代金券,请在控制台“费用与成本 > 优惠折扣”中查看代金券的使用范围。

    3、套餐包费用为一次性支付,即刻生效,暂不支持指定日期生效。

    4、套餐包购买时长为1年,可通过叠加套餐包累加API调用次数或时长。

    5、购买的套餐包在生效期内,扣费方式是先扣除已购买的套餐包内的额度后,超出部分以按需计费的方式进行结算。

    6、购买的套餐包到期后如果没有购买新的套餐包,系统会自动转为按需计费。

    查看详情

语音识别的常见问题

语音识别的常见问题

活动规则

活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理

活动时间: 2020年8月12日-2020年9月11日

活动期间,华为云用户通过活动页面购买云服务,或使用上云礼包优惠券在华为云官网新购云服务,累计新购实付付费金额达到一定额度,可兑换相应的实物礼品。活动优惠券可在本活动页面中“上云礼包”等方式获取,在华为云官网直接购买(未使用年中云钜惠活动优惠券)或参与其他活动的订单付费金额不计入统计范围内;

  • 怎么打开在线语音识别?

    打开手机在线语音识别的方法。打开手机搜索引擎,进入此应用,进入手机搜索引擎首页。点击箭头标记处的话筒图标。页面会提示请说话,对着手机麦说话。说完之后,点击说完了就会自动显示搜索结果,如果系统未检测到声音,只需点击重试或者检查手机麦。

  • 在线语音识别和离线语音识别哪个好?

    在线识别:使用云端引擎,更强的算力,识别率和鲁棒性更高,缺点是必须依赖于网络,时延较高。

    离线识别:使用本地引擎,算力和模型大小有限,通常都基于具体的业务场景定制,语料覆盖和泛化能力都是受限的,鲁棒性肯定更差。优点是不依赖于网络,通常响应速度很快。

    基于具体业务应用,推荐使用在线和离线混合识别,两路并行识别,基于结果置信度和响应时延综合仲裁使用哪一路结果,达到最优交互效果。

  • 语音识别技术原理是什么?

    语音识别系统在本质上来看就是一种模式识别系统,包含了特征争取模式匹配参考模式库等三个基本的单元。未知的语音在通过话筒变换成为电信号之后,会添加在识别系统的输入端,首先会经过预处理,然后再根据人的声音特点建立语音模型,对于输入的语音信号进行相应的分析,并且抽取需要的特点,在这个基础之上建立出语音识别所需要的模板。计算机在识别的过程当中,需要根据语音识别的模型将,这当中存放的语音模板和输入的语音信号的相应特点进行比较,然后再根据一定的搜索和匹配策略,找出一系列最优的和输入语音匹配的模板之后,再根据模板的定义,通过查表就可以给出计算机的识别结果。由此可见,这种最优的结果与特征的选择、语音模型的好坏、模板的准确度都有着直接的关系。

  • 语音识别是强制绑定使用OBS进行录音文件存储吗?

    不是,只有录音文件识别需要使用OBS服务,语音交互服务对用户存储在OBS的数据,具有只读权限,没有修改和删除的权限。所以用户是否删除上传至OBS服务的数据,需要用户根据自己的obs桶的使用情况或者容量大小确认,并在OBS服务上执行。

  • 为什么会出现识别结果非常差的情况?

    问题现象:调用语音识别接口,识别结果同真实结果差别很大,或者服务端报音频格式错误。

    解决方案:

    检查音频采样率是否符合。

    对于裸音频,可采用toolsoft Audio player等工具进行试听,通过设置不同的采样率,播放正常的即为音频正常采样率。

    如果检查参数“property”是否与采样率一致,如“chinese_8k_common”, 8k即采样率。

  • 录音文件识别多久可以返回结果?

    音频转写时长受音频时长和排队任务数量影响。如果转写耗时比理论时延长,大概率表示当前时间段出现转写高峰,请耐心等待,我们承诺最大转写时长不超过6小时。

  • 如何在流程中配置语音识别错误次数?

    流程在进行语音识别交互时,对话流程提供了默认的错误次数控制,具体处理机制为:

    1、IVR识别超时,则记录一次timeout。

    2、IVR识别错误以及意图模板拒识则记录一次 nomatch。

    3、OIAP会进行次数累加,超时和拒识是重叠计数的,累计达到三次,则默认会记录成error3的条件。

    以上固定的规则,只能满足同一识别场景,超时与拒识一起计数,且到三次即停止。

    但是当需求要求超时次数与拒识分开计数时、或者多次识别共同计数、或者其他的错误场景也累计到此错误、甚至错误次数不止三次等等,上述规则则不能满足了。

    当默认的规则不满足需求要求时,可以使用业务计数规则:

    使用业务接口调用图元,自定义计数变量,可使用GLOBAL级别或者FLOW级别,分别可以用于不同计数场景;当识别超时,或者拒识可设置不同的分支,分别连接到次数累加图元:

    根据错误次数变量来决定走什么样的分支,比如播放错误提示,或者直接返回重新播放提示音等等。

  • 哪些因素造成语音识别不准确?

    1、口音混杂,例如英式和美式混杂。

    2、语音质量差,例如网络丢包抖动造成接收到的语音质量低。

  • 语音识别,返回状态正常,但识别结果为空?

    一般由于格式不匹配造成的。请按照以下情况进行排查。

    1. 请确保音频格式和请求格式参数保持一致,音频采样率和选择“property”参数中采样率保持一致。

    2. 请确保音频位宽为16bit,目前仅支持16bit位宽的音频,如果低于该位宽的音频,则无法正常识别。

语音识别相关文档下载

活动规则

活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理

活动时间: 2020年8月12日-2020年9月11日

活动期间,华为云用户通过活动页面购买云服务,或使用上云礼包优惠券在华为云官网新购云服务,累计新购实付付费金额达到一定额度,可兑换相应的实物礼品。活动优惠券可在本活动页面中“上云礼包”等方式获取,在华为云官网直接购买(未使用年中云钜惠活动优惠券)或参与其他活动的订单付费金额不计入统计范围内;