⌚️: 2021-07-21
📚参考
- NLP项目流程【主要】
- 巩固知识的博客-1
- 巩固知识的博客-2
- 巩固知识的博客-3
- 巩固知识的博客-4
- 巩固知识的博客-5
- Transformer & CNN
- Word Embedding->ELMO->GPT->Bert
NLP学习路线是参考王树森视频整理的,以NLP(Natural Language Processing)为例,介绍了从RNN->LSTM->Attention->Self-Attention->Transformer->BERT、GPT、...等内容,然后再简单介绍ViT(Vision Transformer).
参考NLP项目流程中的课时1和课时2.
- Tokenization(分词)
- Build Dictionary(建立字典)
- One-hot encoding(热编码)
- Word Embedding(嵌入式编码)
有很多text, speech, time series的数据,无法使用FC, CNN(当时)来处理,所以人们设计出RNN来处理时间序列数据。
但是RNN不能记忆长时间内容。
RNN不能记忆长时间内容,所以有了LSTM模型,但是LSTM只是长短记忆模型,,太长的序列时间也是不可以的。
为了提高RNN的性能,人们提出了很改进方法。
Yt会遗忘X1的内容,所以有了双向RNN,Y1会遗忘Xt内容,两者互补,效果会好很多。
如何提高Seq2Seq的性能
- Bi-LSTM instead of LSTM (Encoder only!)
- Word-Level Tokenization
- Multi-Task Learning
- Attention! (Next lecture.)
Seq2Seq的缺点:
- 最后的状态不能记忆长时间内容
我认为Attention机制实际上是一种相当普适的方法,它能够直接嵌入原网络中加强对中心特征的选择。
- • Attention tremendously improves Seq2Seq model.
- • With attention, Seq2Seq model does not forget source input.
- • With attention, the decoder knows where to focus.
- • Downside: much more computation.
其中,h0是全0向量。
Bidirectional Encoder Representations from Transformers.用来预训练Transformer中的Encoder模型。