华为云计算 云知识 语音标注服务-用户案例

语音标注服务-用户案例

1. 某国内语音领域TOP公司:亚欧地区小语种语音采集及标注
一、需求: 1)斯洛伐克语 2)塞尔维亚语 3)捷克语 4)芬兰语 5)维吾尔语 6)泰语 二、项目难点: 1)需要丰富的小语种采集及标注资源,要求标注员具备一定的相关小语种基础; 2)项目工期短,数据量大; 3)转写要求高,规则上细节较多,比如“感叹语气词需转写,如啊、嗯、等语气词需要保持统一”等。 三、解决方案: 1)星尘数据通过调用在全球的采集资源,寻找最适合的采集伙伴对稀缺语言进行采集;在短时间内为了适配采集和标注的需求开发更加适合的软件以满足采标的需求;通过多层质检和动态监控保障稀缺语言标注的质量; 2)配备专业的项目经理(PM)负责项目,将易错字、词整理成字词表,将规则细节归纳整理成培训手册,对所有标注员进行上岗培训; 3)星尘的技术团队为项目配置了专门的预标注算法,大幅提高了标注效率和标注准确率;使用脚本质检,能找到一些人工不容易发现的错误,从而提高效率和正确率; 4)项目前期至少设置一层100%质检,100%抽检;项目中期,再逐步降低抽检比例,其他不变。使用奖惩手段调动标注员积极性。
2. 某国内语音领域TOP公司:方言采集+标注
一、需求: 1)山东方言数据采集 2)山东方言数据标注 二、项目难点: 1)要求标注员及质检员具备一定的相关方言基础; 2)部分标注词汇需以词汇表的要求为准,词汇表中有2000个以上的字词,要求严格按照词汇表标注。 3)项目过程中赶上疫情突发,数据采集及标注受到严重影响; 4)采集语音总量大,且并非单人录制语音,而是要求发音人随机组合进行方言对话,对话领域要符合规范要求,如影视、饮食、卫生医疗等领域。 三、解决方案: 1)使用山东方言区的专业标注团队进行数据采集及标注; 2)使用脚本将采集数据进行统一参数识别,提高质检效率; 3)星尘自研的方言预标注算法,大幅提高了标注效率和质量,再预标注的基础上进行更改,最后使用辅助算法对照词汇表将相关词汇进行修正; 4)使用脚本质检,能找到一些人工不容易发现的错误,从而提高效率和正确率; 5)受到疫情影响后第一时间增加团队的培训,保证标注的产能和质量; 6)项目前期100%质检,100%抽检;项目中期,再逐步降低抽检比例,其它不变。多层质检保证标注质量。
查看详情

云市场免费试用中心

50+款产品限时免费试用
免费体验
语音标注服务

意见反馈

0/200

提交 取消

反馈提交失败!请稍后重试!
云服务器0元领取 | 免费试用云产品
相关推荐