Self-Attention
-
[n424] TransformerAI 부트캠프 2021. 12. 29. 14:00
Transformer Transformer는 기계 번역을 위해 Attention 매커니즘을 이용하여 뛰어난 번역 성능을 낸다. RNN 기반 모델은 단어가 순서대로 들어온다는 치명적인 단점이 있다. 즉, GPU의 장점을 활용하지 못하고 연산시간이 길다. 이를 해결하기 위해 Transformer는 RNN을 사용하지않고 병렬화를 통해 빠르게 연산한다. 병렬 연산을 위해 모든 토큰을 동시에 입력받아 GPU를 활용한다. 왼쪽 회색 블록이 인코더, 오른쪽이 디코더이다. 인코더 블록에는 Multi-Head (Self) Attention, Feed Forward로 구성되어 있으며, 디코더 블록에는 Masked Multi-Head (Self) Attention, Multi-Head (Encoder-Decoder) Att..