精选文章 零基础入门天池NLP赛事之——新闻文本分类(6)

零基础入门天池NLP赛事之——新闻文本分类(6)

作者:Sherlock0618 时间: 2020-08-04 11:48:16
Sherlock0618 2020-08-04 11:48:16

基于深度学习的文本分类

一、学习目标:

  • 了解Transformer的原理和基于预训练语言模型(Bert)的词表示
  • 学会Bert的使用,具体包括pretrain和finetune

二、文本表示方法Part4:

Transformer原理

Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。

零基础入门天池NLP赛事之——新闻文本分类(6)1

我们重点关注编码部分。他们结构完全相同,但是并不共享参数,每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后,它们首先流过一个self-attention层,该层帮助编码器在它编码单词的时候能够看到输入序列中的其他单词。self-attention的输出流向一个前向网络(Feed Forward Neural Network),每个输入位置对应的前向网络是独立互不干扰的。最后将输出传入下一个编码器。

零基础入门天池NLP赛事之——新闻文本分类(6)2

这里能看到Transformer的一个关键特性,每个位置的词仅仅流过它自己的编码器路径。在self-attention层中,这些路径两两之间是相互依赖的。前向网络层则没有这些依赖性,但这些路径在流经前向网络时可以并行执行。

Self-Attention中使用多头机制,使得不同的attention heads所关注的的部分不同。

零基础入门天池NLP赛事之——新闻文本分类(6)3

编码"it"时,一个attention head集中于"the animal",另一个head集中于“tired”,某种意义上讲,模型对“it”的表达合成了的“animal”和“tired”两者。

对于自注意力的详细计算,欢迎大家参考Jay Alammar关于Transformer的博客,这里不再展开。

除此之外,为了使模型保持单词的语序,模型中添加了位置编码向量。如下图所示,每行对应一个向量的位置编码。因此,第一行将是我们要添加到输入序列中第一个单词的嵌入的向量。每行包含512个值—每个值都在1到-1之间。因为左侧是用sine函数生成,右侧是用cosine生成,所以可以观察到中间显著的分隔。

零基础入门天池NLP赛事之——新闻文本分类(6)4

编码器结构中值得提出注意的一个细节是,在每个子层中(Self-attention, FFNN),都有残差连接,并且紧跟着layer-normalization。如果我们可视化向量和LayerNorm操作,将如下所示:

零基础入门天池NLP赛事之——新闻文本分类(6)5

基于预训练语言模型的词表示

基于预训练语言模型的词表示由于可以建模上下文信息,进而解决传统静态词向量不能建模“一词多义”语言现象的问题。最早提出的ELMo基于两个单向LSTM,将从左到右和从右到左两个方向的隐藏层向量表示拼接学习上下文词嵌入。而GPT用Transformer代替LSTM作为编码器,首先进行了语言模型预训练,然后在下游任务微调模型参数。但GPT由于仅使用了单向语言模型,因此难以建模上下文信息。为了解决以上问题,研究者们提出了BERT,BERT模型结构如下图所示,它是一个基于Transformer的多层Encoder,通过执行一系列预训练,进而得到深层的上下文表示。

零基础入门天池NLP赛事之——新闻文本分类(6)6

ELMo论文题目中Deep是指双向双层LSTM,而更关键的在于context。传统方法生成的单词映射表的形式,即先为每个单词生成一个静态的词向量,之后这个单词的表示就被固定住了,不会跟着上下文的变化而做出改变。事实上,由于一词多义的语言现象,静态词向量是有很大的弊端的。以bank为例,如果训练语料的足够大,事先学好的词向量中混杂着所有的语义。而当下游应用时,即使在新句子中,bank的上下文里包含money等词,我们基本可以确定bank是“银行”的语义而不是在其他上下文中的“河床”的语义,但是由于静态词向量不能跟随上下文而进行变化,所以bank的表示中还是混杂着多种语义。为了解决这一问题,ELMo首先进行了语言模型预训练,然后在下游任务中动态调整Word Embedding,因此最后输出的词表示能够充分表达单词在上下文中的特定语义,进而解决一词多义的问题。

GPT来自于openai,是一种生成式预训练模型。GPT 除了将ELMo中的LSTM替换为Transformer 的Encoder外,更开创了NLP界基于预训练-微调的新范式。尽管GPT采用的也是和ELMo相同的两阶段模式,但GPT在第一个阶段并没有采取ELMo中使用两个单向双层LSTM拼接的结构,而是采用基于自回归式的单向语言模型。

Google在NAACL 2018发表的论文中提出了BERT,与GPT相同,BERT也采用了预训练-微调这一两阶段模式。但在模型结构方面,BERT采用了ELMO的范式,即使用双向语言模型代替GPT中的单向语言模型,但是BERT的作者认为ELMo使用两个单向语言模型拼接的方式太粗暴,因此在第一阶段的预训练过程中,BERT提出掩码语言模型,即类似完形填空的方式,通过上下文来预测单词本身,而不是从右到左或从左到右建模,这允许模型能够自由地编码每个层中来自两个方向的信息。而为了学习句子的词序关系,BERT将Transformer中的三角函数位置表示替换为可学习的参数,其次为了区别单句和双句输入,BERT还引入了句子类型表征。BERT的输入如图所示。此外,为了充分学习句子间的关系,BERT提出了下一个句子预测任务。具体来说,在训练时,句子对中的第二个句子有50%来自与原有的连续句子,而其余50%的句子则是通过在其他句子中随机采样。同时,消融实验也证明,这一预训练任务对句间关系判断任务具有很大的贡献。除了模型结构不同之外,BERT在预训练时使用的无标签数据规模要比GPT大的多。

零基础入门天池NLP赛事之——新闻文本分类(6)7

在第二阶段,与GPT相同,BERT也使用Fine-Tuning模式来微调下游任务。如下图所示,BERT与GPT不同,它极大的减少了改造下游任务的要求,只需在BERT模型的基础上,通过额外添加Linear分类器,就可以完成下游任务。具体来说,对于句间关系判断任务,与GPT类似,只需在句子之间加个分隔符,然后在两端分别加上起始和终止符号。在进行输出时,只需把句子的起始符号[CLS]在BERT最后一层中对应的位置接一个Softmax+Linear分类层即可;对于单句分类问题,也与GPT类似,只需要在句子两段分别增加起始和终止符号,输出部分和句间关系判断任务保持一致即可;对于问答任务,由于需要输出答案在给定段落的起始和终止位置,因此需要先将问题和段落按照句间关系判断任务构造输入,输出只需要在BERT最后一层中第二个句子,即段落的每个单词对应的位置上分别接判断起始和终止位置的分类器;最后,对于NLP中的序列标注问题,输入与单句分类任务一致,不同的是在BERT最后一层中每个单词对应的位置上接分类器即可。

零基础入门天池NLP赛事之——新闻文本分类(6)8

更重要的是,BERT开启了NLP领域“预训练-微调”这种两阶段的全新范式。在第一阶段首先在海量无标注文本上预训练一个双向语言模型,这里特别值得注意的是,将Transformer作为特征提取器在解决并行性和长距离依赖问题上都要领先于传统的RNN或者CNN,通过预训练的方式,可以将训练数据中的词法、句法、语法知识以网络参数的形式提炼到模型当中,在第二阶段使用下游任务的数据Fine-tuning不同层数的BERT模型参数,或者把BERT当作特征提取器生成BERT Embedding,作为新特征引入下游任务。这种两阶段的全新范式尽管是来自于计算机视觉领域,但是在自然语言处理领域一直没有得到很好的运用,而BERT作为近些年NLP突破性进展的集大成者,最大的亮点可以说不仅在于模型性能好,并且几乎所有NLP任务都可以很方便地基于BERT进行改造,进而将预训练学到的语言学知识引入下游任务,进一步提升模型的性能。

基于Bert的文本分类

Bert Pretrain

预训练过程使用了Google基于Tensorflow发布的BERT源代码。首先从原始文本中创建训练数据,由于本次比赛的数据都是ID,这里重新建立了词表,并且建立了基于空格的分词器。

class WhitespaceTokenizer(object):
    """WhitespaceTokenizer with vocab."""
    def __init__(self, vocab_file):
        self.vocab = load_vocab(vocab_file)
        self.inv_vocab = {v: k for k, v in self.vocab.items()}

    def tokenize(self, text):
        split_tokens = whitespace_tokenize(text)
        output_tokens = []
        for token in split_tokens:
            if token in self.vocab:
                output_tokens.append(token)
            else:
                output_tokens.append("[UNK]")
        return output_tokens

    def convert_tokens_to_ids(self, tokens):
        return convert_by_vocab(self.vocab, tokens)

    def convert_ids_to_tokens(self, ids):
        return convert_by_vocab(self.inv_vocab, ids)

在预训练过程中,也只执行掩码语言模型任务,因此不再计算下一句预测任务的loss。

(masked_lm_loss, masked_lm_example_loss, masked_lm_log_probs) = get_masked_lm_output(
    bert_config, model.get_sequence_output(), model.get_embedding_table(),
    masked_lm_positions, masked_lm_ids, masked_lm_weights)

total_loss = masked_lm_loss

为了适配句子的长度,以及减小模型的训练时间,我们采取了BERT-mini模型,详细配置如下。

{
  "hidden_size": 256,
  "hidden_act": "gelu",
  "initializer_range": 0.02,
  "vocab_size": 5981,
  "hidden_dropout_prob": 0.1,
  "num_attention_heads": 4,
  "type_vocab_size": 2,
  "max_position_embeddings": 256,
  "num_hidden_layers": 4,
  "intermediate_size": 1024,
  "attention_probs_dropout_prob": 0.1
}

由于我们的整体框架使用Pytorch,因此需要将最后一个检查点转换成Pytorch的权重。

def convert_tf_checkpoint_to_pytorch(tf_checkpoint_path, bert_config_file, pytorch_dump_path):
    # Initialise PyTorch model
    config = BertConfig.from_json_file(bert_config_file)
    print("Building PyTorch model from configuration: {}".format(str(config)))
    model = BertForPreTraining(config)

    # Load weights from tf checkpoint
    load_tf_weights_in_bert(model, config, tf_checkpoint_path)

    # Save pytorch-model
    print("Save PyTorch model to {}".format(pytorch_dump_path))
    torch.save(model.state_dict(), pytorch_dump_path)

预训练消耗的资源较大,硬件条件不允许的情况下建议直接下载开源的模型

Bert Finetune

零基础入门天池NLP赛事之——新闻文本分类(6)9

微调将最后一层的第一个token即[CLS]的隐藏向量作为句子的表示,然后输入到softmax层进行分类。

sequence_output, pooled_output = \
    self.bert(input_ids=input_ids, token_type_ids=token_type_ids)

if self.pooled:
    reps = pooled_output
else:
    reps = sequence_output[:, 0, :]  # sen_num x 256

if self.training:
    reps = self.dropout(reps)

本章小结

本章介绍了Bert的原理和使用,具体包括pretrainfinetune两部分。

 

 

 

勿删,copyright占位
分享文章到微博
分享文章到朋友圈

上一篇:苹果和三星销量猛增,迫使国产手机在利润和市场份额之间作出抉择

下一篇:如何在科研论文中画出漂亮的插图?

您可能感兴趣

  • 深圳月薪2300工厂小妹,逆天改命成google程序员,因为疫情失业了...孙玲:甘于平凡,但从不轻易认输...

    点击“技术领导力”关注∆ 每天早上8:30推送 来源:一人一城(yirenyicheng01) 2020年,世界因为疫情牵一发动全身,孙玲的人生也进入到前所未有的低谷。 短短一个多月内,她经历了父亲去世,失去工作,特朗普颁布的旅行禁令,让她成为无法及时返回美国的众多技术人员其中一个。 被解雇之后,手里持有的签证给她明确的时间节点:必须在7月30号之前找到一份在美国的工作,在8月7号之前必须入...

  • 做VC投资,你看我还有机会吗?-常垒季度专栏

    从这个季度起,常垒资本公众号将推出一个新的专栏内容,每个季度会推出一篇。 主要内容分为两个部分: 第一部分是对过去一个季度我们发现的有趣的投资数据和图表解读。 第二部分是对过去一个季度投资感悟的总结;今天的主题是:投资生涯中的三个跳跃性。 正文即将开始,全文6780字,阅读时长15分钟。 2020年二季度投资数据分享&解读 1、7月8日蓝城兄弟(Blued)在纳斯达克上市 这个在当年看还是极...

  • 深度学习理论篇之----前世、今生、未来

    世界地球日,奏响低碳生活进行曲,以蓝天为乐谱,以绿树为音符,以碧水为琴弦弹奏出环保最强音,为地球母亲祈祷平安吃五谷杂粮,穿天然布衣,住节能住宅,行无车之旅,用厉行节俭。让我们怀着敬畏感恩之心,向地球母亲贺寿。 2017政府工作报告,指出要加快培育壮大包括人工智能在内的新兴产业,“人工智能”也首次被写入了全国政府工作报告。百度李彦宏,腾讯马化腾都在两会上就人工智能发表意见。科大讯飞刘庆峰在朋友...

  • 收藏!NLP在金融投资领域的应用

    标星★置顶公众号 爱你们♥ 作者:泰极 | 华泰证券数字科技 1 引言 2017年被称为中国金融科技的元年,这两年来,以人工智能为代表的新技术对金融业产生越来越重要的影响,人工智能不是一个新名词,在历史的长河里,它从人们曾忘却的暗流慢慢汇聚成今天的大江大河。自然语言处理作为人工智能的支流,也随着它的发展浪潮逐渐展现它的潜能。这次浪潮如此之大,让全球的金融行业都感受到它的湿意,虽然人工智能不能...

  • A Comprehensive Survey on Graph Neural Networks(图神经网络综述)

    目录 摘要 1.引言 2.定义 3.分类和框架 A.图神经网络(GNN)的分类 B.框架 4.循环图神经网络(GRN) 5.卷积图神经网络 A.基于频谱的ConvGNNs B.基于空间的CGNN C.图池化模型 D.理论方面的讨论 6.图自动编码器 A.网络嵌入 B.图生成 7.时空图神经网络 8.应用 A.数据集 B.基准和开源实现 C.实际应用 9.未来方向展望 10.结论: 名词解释 ...

  • 马云称双11对阿里没什么意义;Python成为GitHub第二流行的语言;​华为首款可折叠屏5G手机今日开售 | EA周报...

    EA周报 2019年11月15日 每个星期7分钟,元宝带你喝一杯IT人的浓缩咖啡,了解天下事、掌握IT核心技术。 热点大事件 马云称双十一对阿里没多大意义,只是一次技术测试 11月13日,在第五届世界浙商大会上,马云表示,不要把双十一看作是阿里的成功,其实对阿里巴巴来讲没多大意义,更多的是一个技术测试。他说,双十一所需要的所有技术、设备,是十年以后整个中国科技、经济发展的一种基础设施。(新浪...

  • 华为首款可折叠屏5G手机今日开售;GitHub将开源代码保存在北极;Win10禁用WEP加密|极客头条...

    整理 | 郭芮 快来收听极客头条音频版吧,智能播报由标贝科技提供技术支持。 「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。扫描上方二维码进入 CSDN App 可以收听御姐萌妹 Style 的人工版音频哟。 一分钟速览新闻点! 华为首款可折叠屏5G手机HUAWEI Mate X将于今日上午开售 三大运...

  • 【工作】2021 校招算法岗, 劝退还是继续

    作者:老宋的茶书会 知乎专栏:NLP与深度学习 研究方向:自然语言处理 前沿 其实本来想着等到忙过毕业之后再写这篇文章的,毕竟两年半学制真的伤不起呀。但考虑到今年的算法情况以及各位同学的焦虑,感觉有必要早些写一篇大致的指南来供大家参考。这篇文章花费了一个下午的时间,但仍有很多细节没有探讨清楚,因此会在后续进行不断更新,以免误导诸位同学。 本人已经打算去百度了,虽然价格不高,但部门核心,偏业务...

华为云40多款云服务产品0元试用活动

免费套餐,马上领取!
CSDN

CSDN

中国开发者社区CSDN (Chinese Software Developer Network) 创立于1999年,致力为中国开发者提供知识传播、在线学习、职业发展等全生命周期服务。