华为云语音语义创新Lab获得国际权威WSDM Cup大赛金牌

近日,在美国休斯敦闭幕的第13届网络搜索与数据挖掘国际会议(WSDM 2020)上,华为云语音语义创新Lab带领四所高校学生组成的联合团队摘得WSDM Cup大赛2020“论文引用意图识别任务”金牌。

WSDM被誉为全球信息检索领域最有影响力也最权威的会议之一,会议关注社交网络上的搜索与数据挖掘,尤其关注搜索与数据挖掘模型、算法设计与分析、产业应用和提升准确性与效果的实验分析。今年已经是WSDM的第十三届会议。


3.jpg


本次WSDM Cup共有三个赛题任务,华为云夺金赛题的出题方是微软研究院,赛题内容为“论文引用意图识别”,即将网络搜索和数据挖掘技术用于区分多余引文和引用真实性识别。比赛提供一个论文库(约含80万篇论文),同时提供对被引用论文的引用文本段落,来自论文中对同类研究的介绍。参赛选手需要根据论文引用描述从论文库中匹配三篇最相关的论文。

论文是人类最前沿知识的媒介,因此如果可以理解论文中的数据,可以极大地扩充计算机理解知识的能力和范围。在论文中,作者经常会引用其他论文,并对被引论文做出对应描述。如果我们可以自动地理解、识别描述对应的被引论文,不仅可以加深对科研脉络的理解,还能在科研知识图谱、科研自动问答系统和自动摘要系统等领域有所进步。

华为云语音语义创新Lab凭借在自然语言处理领域深厚的技术积累,带领华南理工大学、华中科技大学、武汉大学、江南大学4名学生组成的联合团队,针对该问题制定了“整体召回+重排+集成”的方案。在整体召回阶段,通过轻量化的文本相似度计算方法(如BM25、TFIDF、Word2Vec等),以较少的计算代价从大规模论文库中检索出给定查询的可能相关的论文集合。在重排阶段,通过计算量大但更准确的方法对这些候选论文中的每一篇论文计算和引用描述的相似度值并重新排序,例如采用基于深度学习的预训练语言模型BERT等。华为云团队观察到所给语料都是生物医学领域,因此采用了基于生物医药和科学领域语料进行预训练的BioBERT和SciBERT语言模型对论文进行重排。最后,通过对所有模型的结果进行集成,得到最终的Top 3最相关的论文。

目前,华为云语音语义相关服务已经成功应用于政务、金融、油气、医疗、汽车、物流、保险、电商、税务、媒体等具有语音识别、语言理解、知识管理等需求的业务领域。


随时获取华为云AI最新动态,欢迎关注华为云AI公众号:

B8483785-C43D-4374-9026-618F8EBE3597.png