ASR语音识别服务_什么是语音识别_语音识别优势

什么是语音识别

立即使用免费试用

语音识别适用于哪些场景

语音客服质检

识别客服、客户的语音，转换为文本。进一步通过文本检索，检查有没有违规、敏感词、电话号码等信息。

识别客服、客户的语音，转换为文本。进一步通过文本检索，检查有没有违规、敏感词、电话号码等信息。
会议记录

对会议记录的音频文件，进行快速的识别，转化成文字，方便进行会议记录。

对会议记录的音频文件，进行快速的识别，转化成文字，方便进行会议记录。
语音短消息

通过语音发送或者接收短消息时，将音频短消息转文字，提升阅读效率和交互体验。

通过语音发送或者接收短消息时，将音频短消息转文字，提升阅读效率和交互体验。

游戏娱乐

将游戏娱乐中的语音聊天转成文字消息，提升用户阅读效率，提升用户体验。

将游戏娱乐中的语音聊天转成文字消息，提升用户阅读效率，提升用户体验。
有声读物

将书籍、杂志、新闻的文本内容转换成逼真的人声发音，充分解放人们的眼睛，在搭乘地铁、开车、健身等场景下获取信息、享受乐趣。

将书籍、杂志、新闻的文本内容转换成逼真的人声发音，充分解放人们的眼睛，在搭乘地铁、开车、健身等场景下获取信息、享受乐趣。
电话回访

在客服系统场景中，通过将回访内容转换成人声，直接使用语音和客户交流，提升用户体验。

在客服系统场景中，通过将回访内容转换成人声，直接使用语音和客户交流，提升用户体验。

智能教育

集成语音合成的教育系统可以实现中文标准朗读及带读，应用于课堂和学生自学，提升教学效率。

集成语音合成的教育系统可以实现中文标准朗读及带读，应用于课堂和学生自学，提升教学效率。
直播实时字幕

将视频直播或现场直播中的音频实时转为字幕，为观众提供更高效的观会体验，方便对直播内容进行监控。

将视频直播或现场直播中的音频实时转为字幕，为观众提供更高效的观会体验，方便对直播内容进行监控。
会议实时记录

将视频或电话会议中的音频实时转为文字，可实时校核、修改及检索转写会议内容，提高会议效率。

将视频或电话会议中的音频实时转为文字，可实时校核、修改及检索转写会议内容，提高会议效率。

即时文本录入

手机App上实时录音并即时提供转写的文本，例如语音输入法等。

手机App上实时录音并即时提供转写的文本，例如语音输入法等。
人机交互

通过语音合成，实现高品质的机器人发声，使得人机交互更加自然。

通过语音合成，实现高品质的机器人发声，使得人机交互更加自然。
智能客服

借助语音合成，联络中心可以用自然的声音与客户互动。

借助语音合成，联络中心可以用自然的声音与客户互动。

语音识别的功能和技术用途介绍

实时语音识别

实时语音识别服务，用户通过实时访问和调用API获取实时语音识别结果，支持的语言包含中文普通话、方言，方言当前支持四川话、粤语和上海话。

实时语音识别服务，用户通过实时访问和调用API获取实时语音识别结果，支持的语言包含中文普通话、方言，方言当前支持四川话、粤语和上海话。
一句话识别

可以实现1分钟以内音频到文字的转换。对于用户上传的二进制音频格式数据，系统经过处理，生成语音对应的文字，支持的语言包含中文普通话、方言。

可以实现1分钟以内音频到文字的转换。对于用户上传的二进制音频格式数据，系统经过处理，生成语音对应的文字，支持的语言包含中文普通话、方言。
录音文件识别

对于录制的长语音进行识别，转写成文字，提供不同领域模型，具备良好的可扩展性，支持热词定制。

对于录制的长语音进行识别，转写成文字，提供不同领域模型，具备良好的可扩展性，支持热词定制。

电话通信的语音拨号

特别是在中、高档移动电话上，现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低，普通电话上也将具备语音拨号的功能。

特别是在中、高档移动电话上，现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低，普通电话上也将具备语音拨号的功能。
汽车的语音控制

由于在汽车的行驶过程中，驾驶员的手必须放在方向盘上，因此在汽车上拨打电话，需要使用具有语音拨号功能的免提电话通信方式。

由于在汽车的行驶过程中，驾驶员的手必须放在方向盘上，因此在汽车上拨打电话，需要使用具有语音拨号功能的免提电话通信方式。
工业控制及医疗领域

当操作人员的眼或手已经被占用的情况下，在增加控制操作时，最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令，机器用语音做出应答。

当操作人员的眼或手已经被占用的情况下，在增加控制操作时，最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令，机器用语音做出应答。

语音识别的计费模式

收起

按需计费收起

按需计费是指按照API调用次数阶梯价格计费，计费价格参见语音交互价格计算器。

查看详情
收起

折扣套餐包收起

折扣套餐包方式是用户可以购买套餐包，扣费时调用次数会先在套餐包内进行抵扣，抵扣完后的剩余调用量默认转回按需计费方式，计费价格参见语音交互价格计算器。

说明：

1、购买套餐包前，请进行账号实名认证。
2、如您有代金券，请在控制台“费用与成本 > 优惠折扣”中查看代金券的使用范围。
3、套餐包费用为一次性支付，即刻生效，暂不支持指定日期生效。
4、套餐包购买时长为1年，可通过叠加套餐包累加API调用次数或时长。
5、购买的套餐包在生效期内，扣费方式是先扣除已购买的套餐包内的额度后，超出部分以按需计费的方式进行结算。
6、购买的套餐包到期后如果没有购买新的套餐包，系统会自动转为按需计费。

查看详情

语音识别的常见问题

怎么打开在线语音识别？

打开手机在线语音识别的方法。打开手机搜索引擎，进入此应用，进入手机搜索引擎首页。点击箭头标记处的话筒图标。页面会提示请说话，对着手机麦说话。说完之后，点击说完了就会自动显示搜索结果，如果系统未检测到声音，只需点击重试或者检查手机麦。
在线语音识别和离线语音识别哪个好？

在线识别：使用云端引擎，更强的算力，识别率和鲁棒性更高，缺点是必须依赖于网络，时延较高。
离线识别：使用本地引擎，算力和模型大小有限，通常都基于具体的业务场景定制，语料覆盖和泛化能力都是受限的，鲁棒性肯定更差。优点是不依赖于网络，通常响应速度很快。
基于具体业务应用，推荐使用在线和离线混合识别，两路并行识别，基于结果置信度和响应时延综合仲裁使用哪一路结果，达到最优交互效果。
语音识别技术原理是什么?

语音识别系统在本质上来看就是一种模式识别系统，包含了特征争取模式匹配参考模式库等三个基本的单元。未知的语音在通过话筒变换成为电信号之后，会添加在识别系统的输入端，首先会经过预处理，然后再根据人的声音特点建立语音模型，对于输入的语音信号进行相应的分析，并且抽取需要的特点，在这个基础之上建立出语音识别所需要的模板。计算机在识别的过程当中，需要根据语音识别的模型将，这当中存放的语音模板和输入的语音信号的相应特点进行比较，然后再根据一定的搜索和匹配策略，找出一系列最优的和输入语音匹配的模板之后，再根据模板的定义，通过查表就可以给出计算机的识别结果。由此可见，这种最优的结果与特征的选择、语音模型的好坏、模板的准确度都有着直接的关系。
语音识别是强制绑定使用OBS进行录音文件存储吗？

不是，只有录音文件识别需要使用OBS服务，语音交互服务对用户存储在OBS的数据，具有只读权限，没有修改和删除的权限。所以用户是否删除上传至OBS服务的数据，需要用户根据自己的obs桶的使用情况或者容量大小确认，并在OBS服务上执行。
为什么会出现识别结果非常差的情况？

问题现象：调用语音识别接口，识别结果同真实结果差别很大，或者服务端报音频格式错误。
解决方案：
检查音频采样率是否符合。
对于裸音频，可采用toolsoft Audio player等工具进行试听，通过设置不同的采样率，播放正常的即为音频正常采样率。
如果检查参数“property”是否与采样率一致，如“chinese_8k_common”， 8k即采样率。
录音文件识别多久可以返回结果？

音频转写时长受音频时长和排队任务数量影响。如果转写耗时比理论时延长，大概率表示当前时间段出现转写高峰，请耐心等待，我们承诺最大转写时长不超过6小时。
如何在流程中配置语音识别错误次数？

流程在进行语音识别交互时，对话流程提供了默认的错误次数控制，具体处理机制为：
1、IVR识别超时，则记录一次timeout。
2、IVR识别错误以及意图模板拒识则记录一次 nomatch。
3、OIAP会进行次数累加，超时和拒识是重叠计数的，累计达到三次，则默认会记录成error3的条件。
以上固定的规则，只能满足同一识别场景，超时与拒识一起计数，且到三次即停止。
但是当需求要求超时次数与拒识分开计数时、或者多次识别共同计数、或者其他的错误场景也累计到此错误、甚至错误次数不止三次等等，上述规则则不能满足了。
当默认的规则不满足需求要求时，可以使用业务计数规则：
使用业务接口调用图元，自定义计数变量，可使用GLOBAL级别或者FLOW级别，分别可以用于不同计数场景；当识别超时，或者拒识可设置不同的分支，分别连接到次数累加图元：
根据错误次数变量来决定走什么样的分支，比如播放错误提示，或者直接返回重新播放提示音等等。
哪些因素造成语音识别不准确？

1、口音混杂，例如英式和美式混杂。
2、语音质量差，例如网络丢包抖动造成接收到的语音质量低。
语音识别，返回状态正常，但识别结果为空？

一般由于格式不匹配造成的。请按照以下情况进行排查。
1. 请确保音频格式和请求格式参数保持一致，音频采样率和选择“property”参数中采样率保持一致。
2. 请确保音频位宽为16bit，目前仅支持16bit位宽的音频，如果低于该位宽的音频，则无法正常识别。

语音识别相关文档下载

语音识别最新动态

立即下载
语音识别产品介绍

立即下载
语音识别快速入门

立即下载

语音识别 SDK参考

立即下载
语音识别 API参考

立即下载
语音识别常见问题

立即下载

什么是语音识别

语音识别适用于哪些场景

语音识别的功能和技术用途介绍

语音识别的计费模式

语音识别的常见问题

语音识别的常见问题

语音识别相关文档下载

语音识别 最新动态

语音识别 产品介绍

语音识别 快速入门

语音识别 SDK参考

语音识别 API参考

语音识别 常见问题

语音识别最新动态

语音识别产品介绍

语音识别快速入门

语音识别常见问题