算法创新Lab--研究方向-从听见到听懂-华为云

高山流水觅知音，从“听见”到“听懂”

“高山流水觅知音，知音不在谁堪听？焦尾声断斜阳里，寻遍人间已无琴”。高山流水的典故可谓家喻户晓。知音难觅，不仅仅是音律动听，更需能懂。无独有偶，诗人李白在（开元二十三年）游洛阳而作《春夜洛城闻笛》：“谁家玉笛暗飞声，散入春风满洛城。此夜曲中闻折柳，何人不起故园情。”同样也表达了相同的感慨。诗人听见幽幽的笛声，陶醉其中，好似随春风散落满城；诗人听懂“折柳曲”，触动羁旅情怀，不由得心生思乡之情。

声音是一种非接触的信息传递方式，在家居、客服、车载、教育、医疗等各类语音交互场景中具有先天优势。有关语音的人工智能技术，就是在解决从“听见”到“听懂”的全阶段问题，于细微处辨识“笛声”，分析并理解曲中“折柳”，对应知识文化所赋予的语义，最终形成感知。

扶摇直上九万里扎根而下百余尺：在非洲草原上的一种被称为“草地之王”的植物尖茅草。在生长的最初半年里，只有一寸高，看似薄弱，渺小，人们甚至看不出它在生长。但半年后的雨季到来之际，尖茅草几天时间就能长到一两米的高度。研究表明，在长达半年的时间里，尖茅草其实一直在疯长，但疯长的只是根部，长度往往超过28米。这样惊人之举应征了一句老话：博观约取，厚积薄发。语音业务的算法能力构建和客户场景深耕，更是需要有这种向下扎深根的信念，探究深层次技术原理的决心。本期给大家继续分享华为云算法创新Lab在语音领域的最新进展，包括哭声检测、语音唤醒和定制语音识别等关键算法创新。

1. 哭声识别

落地情况：

1. 哭声识别算法落地海雀AI全景摄像头，商品链接：https://www.vmall.com/product/10086322059741.html。

2. 上线Hilens技能市场，技能链接：https://www.huaweicloud.com/product/hilens.html。

2. 语音唤醒算法

落地情况：

云侧唤醒模型大小为1.8M，唤醒率>95%，误唤醒率<1次/天，性能指标达到业界领先水平，已经上线ROC助手。

端侧模型采用dynamic_rnn训练并转储至static_rnn，极大程度进行了模型压缩，模型大小<500K，内存占用<1M，CPU占用率<10%，唤醒率>95%，误唤醒率<1次/天，已经成功部署在Hisi3516EV300/Hisi3518EV200的HiLinux上。

3. 领域ASR

当前进展：

目前，已经完成在线解码器引擎的研发，包括前端vad、音频格式处理、定制化热词、核心解码等功能模块。引擎目前支持流式实时流识别、短语音识别接口。目前最优模型效果在3个公开测试集和8个现网客户测试集上均优于华为云讯飞引擎，和华为云捷通引擎平均识别差距在两个百分点以内。

Algorithm Powers Innovation

温馨提示

您好，登录后才能参加活动哦！

温馨提示

恭喜您，订阅成功！

温馨提示

抱歉，订阅失败，请稍后再试！

温馨提示

您还未绑定邮箱，需要绑定邮箱才能订阅哦！订阅成功后，订阅信息会发送到您绑定的邮箱。

温馨提示

请您在新打开的页面绑定邮箱！

高山流水觅知音，从“听见”到“听懂”

1. 哭声识别

2. 语音唤醒算法

3. 领域ASR