AI Theory/NLP2 [NLP] 최대한 쉽게 설명한 Transformer 1. Self-Attention 예를 들어, Thinking과 Machines에 대한 Self-Attention을 계산한다고 해보자. 우선 Thinking의 embedding vector이 1x4 matrix라고 하면, 4x3 matrix인 Wq를 곱해 Thinking에 대한 Query값(1x3 matrix)을 얻을 수 있다. 이때, Machines 역시 같은 weight matrix(Wq)와 곱해져서 해당 단어들에 대한 query값을 모두 구할 수 있다. 그 후 Thinking에 대한 Attention만 먼저 살펴보면, Thinking에 대해 구한 query값(q1)은 고정으로 사용하고, 나머지 단어들에 대한 key값(k1,k2, ... )들과 내적(·)해서 Attention Score를 구한다. 아래.. 2022. 5. 17. [NLP] RNN, LSTM, GRU를 비교해보자 - Reference Kaist Edward Choi 교수님의 Programming for AI(AI 504, Fall2020) 딥 러닝을 이용한 자연어 처리 입문(Wikidocs) 0. 들어가기에 앞서 이미지 데이터를 분석하는 기존의 컴퓨터 비전(CV)과 텍스트 데이터를 분석하는 자연어 처리(NLP)는 어떤 차이점이 있을까? 컴퓨터 비전은 image - to - label task(Input size is fixed)를, 자연어 처리는 sentence - to - label task(Input size varies by sample)를 주로 수행하는 것이 일반적이다. 우리가 자연어 처리에서 RNN을 사용하는 이유는 RNN계열의 모델은 이런 input size가 매번 바뀌는 task에 적합한 구조를 갖고.. 2022. 5. 9. 이전 1 다음