高山流水觅知音,从“听见”到“听懂”

gaoshangliushui.jpg

“高山流水觅知音,知音不在谁堪听?焦尾声断斜阳里,寻遍人间已无琴”。高山流水的典故可谓家喻户晓。知音难觅,不仅仅是音律动听,更需能懂。无独有偶,诗人李白在(开元二十三年)游洛阳而作《春夜洛城闻笛》:“谁家玉笛暗飞声,散入春风满洛城。此夜曲中闻折柳,何人不起故园情。”同样也表达了相同的感慨。诗人听见幽幽的笛声,陶醉其中,好似随春风散落满城;诗人听懂“折柳曲”,触动羁旅情怀,不由得心生思乡之情。

声音是一种非接触的信息传递方式,在家居、客服、车载、教育、医疗等各类语音交互场景中具有先天优势。有关语音的人工智能技术,就是在解决从“听见”到“听懂”的全阶段问题,于细微处辨识“笛声”,分析并理解曲中“折柳”,对应知识文化所赋予的语义,最终形成感知。

扶摇直上九万里 扎根而下百余尺:在非洲草原上的一种被称为“草地之王”的植物尖茅草。在生长的最初半年里,只有一寸高,看似薄弱,渺小,人们甚至看不出它在生长。但半年后的雨季到来之际,尖茅草几天时间就能长到一两米的高度。研究表明,在长达半年的时间里,尖茅草其实一直在疯长,但疯长的只是根部,长度往往超过28米。这样惊人之举应征了一句老话:博观约取,厚积薄发。语音业务的算法能力构建和客户场景深耕,更是需要有这种向下扎深根的信念,探究深层次技术原理的决心。本期给大家继续分享华为云算法创新Lab在语音领域的最新进展,包括哭声检测、语音唤醒和定制语音识别等关键算法创新。

1. 哭声识别

落地情况:

1. 哭声识别算法落地海雀AI全景摄像头,商品链接:https://www.vmall.com/product/10086322059741.html

2.  上线Hilens技能市场,技能链接:https://www.huaweicloud.com/product/hilens.html

image.png

2.  语音唤醒算法 

落地情况:

云侧唤醒模型大小为1.8M,唤醒率>95%,误唤醒率<1次/天,性能指标达到业界领先水平,已经上线ROC助手。

image.png

端侧模型采用dynamic_rnn训练并转储至static_rnn,极大程度进行了模型压缩,模型大小<500K,内存占用<1M,CPU占用率<10%,唤醒率>95%,误唤醒率<1次/天,已经成功部署在Hisi3516EV300/Hisi3518EV200的HiLinux上。

3. 领域ASR

当前进展:

image.png

目前,已经完成在线解码器引擎的研发,包括前端vad、音频格式处理、定制化热词、核心解码等功能模块。引擎目前支持流式实时流识别、短语音识别接口。目前最优模型效果在3个公开测试集和8个现网客户测试集上均优于华为云讯飞引擎,和华为云捷通引擎平均识别差距在两个百分点以内。