Comunicados de imprensa > HUAWEI CLOUD, medalhista de ouro na WSDM Cup

HUAWEI CLOUD, medalhista de ouro na WSDM Cup

29 de Fevereiro de 2020

A equipe liderada pela HUAWEI CLOUD conquistou a medalha de ouro na tarefa Citation Intent Prediction (previsão de intenção de citação, em tradução livre) da 13ª ACM International Conference da WSDM (Web Search and Data Mining) realizada em Houston, EUA.

A WSDM Cup é uma das mais importantes e influentes conferências de busca e mineração de dados no mundo. Este ano marca sua décima terceira sessão. A WSDM Cup tem como foco a busca e a mineração de dados em redes sociais, especialmente com ênfase no design e na análise de algoritmos de busca, assim como na análise experimental de aplicações setoriais. O objetivo é melhorar a capacidade de precisão.

image.png

Neste ano, a WSDM Cup abrangeu três áreas, sendo a HUAWEI CLOUD a medalhista de ouro em Citation Intent Prediction (área de relatório). O desafio foi encontrar os três artigos mais relevantes em uma biblioteca de 800.000 artigos, baseando-se em uma descrição textual do estudo citado.

Artigos acadêmicos são as fontes com o mais refinado conhecimento no mundo. Se um computador puder entender a informação contida nesses estudos, sua capacidade e seu escopo de entendimento podem ser consideravelmente expandidos. Em um artigo, o autor frequentemente cita outros estudos e os descreve resumidamente. Com a possibilidade de um computador automaticamente compreender e identificar essas citações, teríamos uma grande ajuda para aprofundar nosso entendimento do contexto da pesquisa. Além do mais, gráficos de conhecimento, perguntas e respostas automáticas e resumos automáticos baseados nessa informação podem otimizar pesquisas científicas.

A solução da HUAWEI CLOUD para a tarefa foi baseada em "recall geral + reclassificação + agregação", uma estratégia desenvolvida pela equipe liderada pelo Language and Speech Innovation Lab da HUAWEI CLOUD. Os membros da equipe são estudantes das seguintes universidades: South China University of Technology, Huazhong University of Science and Technology, Wuhan University e Jiangnan University.

Primeiramente, objetivando alcançar um número mais alto na taxa de recall para assegurar que artigos relevantes completos sejam retornados, algoritmos leves como BM25, TFIDF e Word2Vec foram usados para estimar a relevância dos estudos. Depois, uma computação mais intensiva e precisa foi aplicada para calcular a similaridade entre os artigos concorrentes e a descrição da citação. Com isso, esses artigos foram reorganizados com base nos seus valores de similaridade. Modelos de linguagem pré-treinados baseados em Deep Learning, como BERT, foram aplicados na reclassificação. Os artigos fornecidos são concorrentes na área de biomedicina, portanto, utilizamos os modelos pré-treinados BioBERT e SciBERT com base em corpus anotado de biomedicina para reclassificar os estudos. Finalmente, os três artigos mais relevantes foram determinados pela integração dos resultados de todos os modelos.

Essa tecnologia de correspondência de texto utilizada pela HUAWEI CLOUD no concurso pode ser amplamente aplicada em buscas, chatbots, gráficos de conhecimento e outras áreas importantes.

Além da premiação, a HUAWEI CLOUD também venceu diversas outras competições relevantes e influentes, fato atribuído a sua tecnologia full-stack no campo do processamento de linguagem natural. Em outubro de 2019, a HUAWEI CLOUD conquistou o primeiro lugar na DigSci Science Data Mining (competição de busca de artigo acadêmico), com uma taxa de precisão 5% maior do que a do segundo colocado. Na última etapa da CCF Big Data & Computing Intelligence Contest de 2019, a HUAWEI CLOUD foi a campeã na análise de sentimento em nível de entidade no campo financeiro.

No mundo real, os serviços de fala e linguagem da HUAWEI CLOUD têm sido aplicados com sucesso em áreas que necessitam de reconhecimento de voz, entendimento da linguagem e gestão de conhecimento. Essas áreas incluem - mas não se limitam a - governo, finanças, óleo e gás, saúde, automóveis, logística, seguradoras, e-commerce, tributação e mídia.