※ 해당 글을 작성하게 된 이유, Transformer 는 NLP 에서 시작되어 CV 등 여러 분야의 task 에 널리 쓰이는 모델입니다. (논문 그대로 해석한 것이 아닌 제 나름의 방식대로 해석해서 작성했음을 알리며 참고 바랍니다.) Ashish Vaswani et al. Attention Is All You Need, NIPS(2017) Summary - 처음으로 attention mechanism 만을 사용함을 제시한 네트워크로, 기존 CNN 이나 RNN 구조에서 벗어나 multi-head attention 을 포함한 encoder-decoder 구조 이용 - 네트워크 학습에 있어, 우수한 parallelization 을 통해 소요 시간 감축 - Machine translation task 에서 좋..