ViT, Vision Transformer (ICLR 2021), review

<div class="figure-file" data-ke-type="file" data-file-src="https://t1.daumcdn.net/cafeattach/1RgNt/b032b34f5499bffcbf3269b3863f23518e4f2472_re_1774416937583?download" data-file-name="2010.11929v2.pdf" data-file-size="3743814" data-mimetype="application/pdf" data-ke-align="alignCenter"><a href="javascript:checkVirus('grpid%3D1RgNt%26fldid%3DRoVa%26dataid%3D2560%26fileid%3D20%26regdt%3D20260325152018&url=https%3A%2F%2Ft1.daumcdn.net%2Fcafeattach%2F1RgNt%2Fb032b34f5499bffcbf3269b3863f23518e4f2472_re_1774416937583')"><div class="image"></div><div class="desc"><div class="filename">2010.11929v2.pdf</div><div class="size">3.57MB</div></div></a></div><hr data-ke-style="style6">ViT 개요<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>ViT는 Transformer 인코더를 크게 변경하지 않고 이미지 처리에 적용 - 기존: Attention 기법을 사용할 때 CNN과 함께 사용하거나, CNN 구조를 유지하면서 CNN 특정 구성 요소 대체에 사용 - Attention만을 사용한 모델도 있었지만 CNN 기반 모델의 성능을 넘기지 못함</li><li>ViT에서는 Transformer만으로 CNN 기반 모델의 성능을 뛰어넘음</li></ul><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/a48438f77645d5cf14fa93b04024b77636ef27be_re_1774416937583" class="txc-image" width="300" height="562" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/a48438f77645d5cf14fa93b04024b77636ef27be_re_1774416937583" data-origin-width="608" data-origin-height="1139"></div><hr data-ke-style="style6"> 장단점 장점<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>확장성이 좋다. - Tansformer 구조를 거의 그대로 사용하기 때문 - 기존 Attention 기반 모델은 이론적으로 뛰어나지만, 특성화된 Attention 패턴으로 다른 네트워크에 확장하기 어려웠음</li><li>Large Scale 학습에 우수하다. - Transformer의 장점을 그대로 흡수</li><li>전이학습 시에 CNN보다 학습에 적은 연산 리소스를 활용한다.</li></ul>단점<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>Inductive Bias가 부족하다. - 때문에 학습 시 CNN보다 많은 양의 데이터를 필요로 한다.</li></ul>  <hr data-ke-style="style6"> Inductive Bias 비교 Inductive Bias (귀납적 편향)<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>모델이 처음 보는 입력에 대한 출력을 예측하기 위해 사용하는 '가정'</li><li>모델 구조 자체가 데이터의 특성을 미리 짐작하도록 설계된 성질</li></ul> CNN의 Inductive Bias- 다음의 2가지 가정을 통해 CNN이 단순한 MLP보다 좋은 성능을 낸다.<ol style="list-style-type: decimal;" data-ke-list-type="decimal"><li>Translation Equivariance</li><li>Locality</li></ol> CNN의 가정 1: Translation Equivariance (평행이동 등변성)<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>사물의 위치가 바뀌어도 동일 사물로 인식</li><li>CNN에서는 입력값의 위치가 변하면 출력값의 위치도 같이 변하면서 값을 유지한다.</li><li>CNN vs. MLP - CNN : Translation Equivariance 가정으로 단순 MLP보다 좋은 성능을 가진다. - MLP : 완전히 같은 값을 가지는 패치의 위치가 조금 달라지더라도 Flatten한 벡터값이 달라지게 됨. Fully Connected 연산 시 weight가 모두 달라지므로 결과값이 달라진다.</li></ul><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/2e2c58c78122ebcfba338ccf2db625f588632d14_re_1774416937583" class="txc-image" width="600" height="315" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/2e2c58c78122ebcfba338ccf2db625f588632d14_re_1774416937583" data-origin-width="700" data-origin-height="368"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/c32e63950a5451afce69fca4431dd99feb6faf3d_re_1774416937583" class="txc-image" width="600" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/c32e63950a5451afce69fca4431dd99feb6faf3d_re_1774416937583" data-origin-width="1280" data-origin-height="1001"></div>  CNN의 가정 2: Locality (지역성 -- 공간적 집약성을 뜻하는 듯)<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>근접 픽셀끼리 종속성 (= 한 픽셀이 주변 픽셀에 대해 높은 종속성을 가진다.)</li><li>Convolution 연산을 할 때, 전체 이미지에서 Convolution 필터가 일부분만 보게 된다. 특정 영역만 보고 Convolution 필터가 특징을 추출할 수 있다.</li><li>ex) '코'라는 특징은 파란 테두리 내부의 픽셀과 관계가 있다.</li></ul><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/6e9530c9c3495e80a018716fee37b4412e0d5fff_re_1774416937584" class="txc-image" width="500" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/6e9530c9c3495e80a018716fee37b4412e0d5fff_re_1774416937584" data-origin-width="500" data-origin-height="409"></div>  Transformer 모델은 Inductive Bias가 없다.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>Attention 구조만 사용한다. - CNN과 같이 Local Receptive Field(지역 수용 영역)를 보지 않음</li><li>지역적 패턴을 익히기 위해 CNN 보다 많은 데이터를 필요로 한다. - 불충분한 데이터양으로 학습하면 일반화 성능이 떨어짐 ex)  ImageNet 데이터셋(중간 사이즈 데이터셋)을 학습에 사용할 경우, 유사한 크기의 ResNet(CNN 모델)보다 성능 낮아짐</li><li>Large Scale 데이터셋을 이용하면 CNN보다 좋은 성능을 낸다. - Large Scale 데이터셋에서 학습하고, 전이학습(Transfer Learning)하면 효과적 - 논문에서 Large Scale 데이터셋 ImageNet 21K,   JFT-300M으로 사전 학습 & CIFAR-10으로 Transfoer Learning 했을 때 높은 정확도였음</li></ul> <hr data-ke-style="style6"> ViT Architecture<div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/e93c92ece95c1c0729637c29a44b88d13b559770_re_1774416937584" class="txc-image" width="600" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/e93c92ece95c1c0729637c29a44b88d13b559770_re_1774416937584" data-origin-width="1280" data-origin-height="679"><div class="figcaption">전체 구조</div></div>   Linear Projection of Flattened Pathches 특징<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>Transformer 구조에 맞는 입력값을 넣어야 함 - Transformer Encoder를 가져와 ViT에 사용했기 때문</li><li>Transformer와 동일하게 시퀀스 데이터에 ① Embedding, ② Positional Encoding 추가</li></ul> <div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/74c7d90f8ec7b7113504294638646245a18e5c1d_re_1774416937584" class="txc-image" width="600" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/74c7d90f8ec7b7113504294638646245a18e5c1d_re_1774416937584" data-origin-width="1280" data-origin-height="631"></div>1. 이미지를 패치 단위로 쪼개고 각 패치를 왼쪽 상단에서 오른쪽 하단의 순서로 나열하여 시퀀스 데이터 형태로 만든다.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>입력 이미지 : (C, H, W) 크기 ↓</li><li>패치 단위로 쪼갬 : (C, P, P) 크기</li></ul> 2. 각 패치는 Flatten하여 벡터로 변환해준다.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>Flatten한 벡터 : C*P*P 크기</li><li>이 N개의 벡터를 합쳐 xp라고 함 : (N, C*P*P)</li></ul>ex) 입력 : (3, 256, 256) 크기의 이미지<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>P(patch의 크기) = 16  →  각 패치의 크기 (3, 16, 16) & 패치의 개수 (16 x 16)</li><li>이 패치 flatten : 3∗16∗16 = 768 → 768 크기의 벡터를 16 X 16개 가지게 됨</li><li>이 값을 시퀀스 데이터로 나타내면 (256, 768)의 형태로 표현</li></ul> 3. 각 벡터에 Linear 연산을 거쳐서 임베딩한다.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>임베딩하기 위해 임베딩 행렬 E와 연산 : (C*P*P, D) 크기    * D : Embedding Demension</li><li>xp와 E를 행렬곱 : (N, C*P*P) * (C*P*P, D) = (N, D)의 크기</li><li>배치 사이즈도 고려 : (B, N, D)</li></ul> <div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/1f1274e578c6812e465f648092762f721fc935bb_re_1774416937584" class="txc-image" width="600" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/1f1274e578c6812e465f648092762f721fc935bb_re_1774416937584" data-origin-width="1245" data-origin-height="693"></div>4. 임베딩 결과에 클래스를 예측하는 [CLS] 토큰을 1개 추가한다.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>토큰이 1개 추가 : (B, N+1, D) 크기</li></ul> 왜?Transformer의 Self-Attention은 모든 패치가 서로를 참조하는 전역적(Global) 연산이다.따라서 의미 없던 [CLS] 토큰이 L번의 인코더 레이어를 거치면서 다른 모든 이미지 패치들의 핵심 정보를 모두 가지게 됨. <a href="https://happy-obok.tistory.com/23" target="_blank" class="ke-link">https://happy-obok.tistory.com/23</a><div class="figure-open" contenteditable="false" data-ke-type="opengraph" data-ke-align="alignCenter" data-og-type="website" data-og-title="BERT 개념 정리 (특징/구조/동작 방식/종류/장점/BERT 모델 설명)" data-og-description="BERT논문[1]과 여러 자료를 종합하여 이해한만큼 적은 글입니다. 딥러닝 기술은 빠르게 발전하면서 자연어, 이미지, 영상 등 다양한 분야에서 높은 성능을 보였고 많이 활용되고 있습니다. 특히 " data-og-host="happy-obok.tistory.com" data-og-source-url="https://happy-obok.tistory.com/23" data-og-url="https://happy-obok.tistory.com/23" data-og-image="https://scrap.kakaocdn.net/dn/sQmlf/dJMb8SXxm9F/dyRUjg7LT19nf8PIAUKQ31/img.png?width=705&height=233&face=0_0_705_233,https://scrap.kakaocdn.net/dn/bbYvgY/dJMb8WezekW/uxXn10KzAfejtujXWCwoSK/img.png?width=705&height=233&face=0_0_705_233,https://scrap.kakaocdn.net/dn/cjqKrP/dJMb8U8TbCM/F8I268Su81xgFh04qoCcck/img.png?width=619&height=184&face=0_0_619_184"><a href="https://happy-obok.tistory.com/23" target="_blank" data-source-url="https://happy-obok.tistory.com/23"><div class="og-image"><img class="thumb_img" src="https://scrap.kakaocdn.net/dn/sQmlf/dJMb8SXxm9F/dyRUjg7LT19nf8PIAUKQ31/img.png?width=705&height=233&face=0_0_705_233,https://scrap.kakaocdn.net/dn/bbYvgY/dJMb8WezekW/uxXn10KzAfejtujXWCwoSK/img.png?width=705&height=233&face=0_0_705_233,https://scrap.kakaocdn.net/dn/cjqKrP/dJMb8U8TbCM/F8I268Su81xgFh04qoCcck/img.png?width=619&height=184&face=0_0_619_184" alt="" xxxxonerror="this.src="//img1.kakaocdn.net/thumb/C200x200/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fcafe_image%2Fcafe_meta_image_190529.png""></div><div class="og-text">BERT 개념 정리 (특징/구조/동작 방식/종류/장점/BERT 모델 설명)BERT논문[1]과 여러 자료를 종합하여 이해한만큼 적은 글입니다. 딥러닝 기술은 빠르게 발전하면서 자연어, 이미지, 영상 등 다양한 분야에서 높은 성능을 보였고 많이 활용되고 있습니다. 특히 happy-obok.tistory.com</div></a></div>   5. [CLS] 토큰이 추가된 값에 동일한 크기의 위치 임베딩을 더해주면 ViT의 입력값이 준비된다.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>이미지에서도 각 패치의 위치가 중요하므로 위치 임베딩을 적용해야 함</li></ul>이미지는 2차원인데, ViT는 굳이 (x, y) 좌표 형태의 2D 임베딩을 쓰지 않고NLP처럼 단순히 0, 1, 2, 3... 순서대로 늘어놓은 1D 위치 임베딩을 사용한다는 점  모델 스스로가 1차원만 보고도 2차원 공간의 상하좌우 관계를 학습함   Transformer Encoder 특징<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>Encoder 연산을 L번 반복하기 위해 입력과 출력의 크기를 같게 유지한다.</li><li>ViT와 Transformer의 Encoder는 형태가 조금 다르지만 전반적인 맥락은 동일하다. - 기존 : Transformer Encoder에서는 Multi-Head Attention 먼저 진행 후, LayerNorm 진행 - ViT : 순서가 바뀌어 있음</li><li>z0을 입력하여 L번 Encoder 연산 후에 zL이 최종적으로 출력된다.</li></ul>  Layter Normalization 특징<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>ViT는 Layer Normalization을 수행한다. = 각 feature에 대해 정규화를 수행한다. =  D차원 방향에 대해 정규화를 수행한다.</li><li>NLP Transformer의 Normalization을 그대로 따왔기에, 샘플 단위 Normalization을 적용한 것으로 보인다.</li></ul> 계산 수식<div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/1b81376f25956d6e9636901ae6690b45ad79e656_re_1774416937584" class="txc-image" width="500" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/1b81376f25956d6e9636901ae6690b45ad79e656_re_1774416937584" data-origin-width="816" data-origin-height="139"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/4f89b73264d73089a5f9fcda29d79ffb9ffe4d67_re_1774416937584" class="txc-image" width="500" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/4f89b73264d73089a5f9fcda29d79ffb9ffe4d67_re_1774416937584" data-origin-width="874" data-origin-height="469"></div><ul style="list-style-type: disc;" data-ke-list-type="disc"><li>위 식에서 r, B는 학습 가능한 파라미터</li><li>분모에서 +E 부분은 분산이 0에 가까워졌을 경우를 대비한 부분</li></ul>   Layer Normalization vs. Batch Normalization<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>Layer Normalization - batch 내부 데이터 크기에 상관없이 '샘플 데이터 단위'로 평균(mean), 분산(std)을 계산하여 Normalization</li><li>Batch Normalization -  mini-batch 내부 특징값의 평균(mean), 분산(std) 값으로 Normalization</li></ul><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/c9e3e1df599984c459b6bd90e37015acb114cc5c_re_1774416937583" class="txc-image" width="600" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/c9e3e1df599984c459b6bd90e37015acb114cc5c_re_1774416937583" data-origin-width="1280" data-origin-height="681"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/94e9d70a669cf59547852145fb8722d2169e62a4_re_1774416937584" class="txc-image" width="400" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/94e9d70a669cf59547852145fb8722d2169e62a4_re_1774416937584" data-origin-width="631" data-origin-height="686"></div><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/6213c608a5ab50ad676ba00d975b310f9a80cb7f_re_1774416937583" class="txc-image" width="400" height="464" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/6213c608a5ab50ad676ba00d975b310f9a80cb7f_re_1774416937583" data-origin-width="592" data-origin-height="686"></div> <hr data-ke-style="style6"> Multi-Head Self-Attention(복습) Self-attention 요약<div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/043155411e9b9cfa1e36a5d5ec00e1c4260d0224_re_1774416937584" class="txc-image" width="600" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/043155411e9b9cfa1e36a5d5ec00e1c4260d0224_re_1774416937584" data-origin-width="1060" data-origin-height="490"></div>입력 행렬 z에 각 가중치 행렬을 곱한다.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>Q, K, V를 한번에 연산하기 위해 마지막 행의 형태를 사용하기도 한다.</li></ul><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/9b5ff436c0b4243b975c958143be27e555241086_re_1774416937584" class="txc-image" width="600" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/9b5ff436c0b4243b975c958143be27e555241086_re_1774416937584" data-origin-width="816" data-origin-height="433"></div>  각 head의 수만큼 Self-attention을 수행한다.<div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/281a1829869b82d2d9a57a1383b357e4dac8434c_re_1774416937583" class="txc-image" width="700" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/281a1829869b82d2d9a57a1383b357e4dac8434c_re_1774416937583" data-origin-width="1280" data-origin-height="552"></div><ul style="list-style-type: disc;" data-ke-list-type="disc"><li>각 head에 대해 Q, K 행렬 내적, K벡터 차원의 제곱근으로 나눔, Softmax 함수로 정규화, 어텐션(Z) 행렬 계산</li><li>각 head의 어텐션 행렬을 모두 연결 : (N+1, D/k, k)의 크기</li><li>연결된 값에 가중치 행렬을 곱해서 최종적으로 원하는 값 얻음 (Multi-head Attention은 같은 구조에서 head weight만 달라지므로 한번에 묶어서 계산)</li><li>(N+1, D/k, k) * (k, D/k, D)  = (N+1, D)의 크기 - 입력과 출력이 같은 크기로 유지됨 - Encoder를 여러번 반복하기 위해서</li></ul><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/cc9a7d60081230b3edfe3ae9f19f50a4c4af1053_re_1774416937584" class="txc-image" width="600" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/cc9a7d60081230b3edfe3ae9f19f50a4c4af1053_re_1774416937584" data-origin-width="1033" data-origin-height="377"></div>  Residual Connection(잔차 연결) 특징<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>특정 레이어를 건너 뛰어서 입력</li><li>초기의 모델 수렴 속도가 높아진다</li><li>입력 데이터와 self-Attention의 결과를 더함 </li></ul>  Multi-Layer Perceptron 특징<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>2개의 완전연결 계층(Fully Connected Layer)과 GELU 활성화 함수(Activation)를 적용한다.</li></ul>  GELU(Gaussian Error Linear Unit) 함수<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>입력값과 입력값의 누적 정규 분포의 곱을 사용한 형태</li><li>활성화 함수의 조건을 만족 - 모든 점에서 미분 가능 - 단조 증가 함수 아님</li><li>장점 : 입력값 x가 다른 입력에 비해 얼마나 큰지에 대한 비율로 값이 조정되므로 확률적 해석 가능</li></ul> <div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/45c23a35c3eeec7fd415beef69debc14ab4f76db_re_1774416937583" class="txc-image" width="600" height="383" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/45c23a35c3eeec7fd415beef69debc14ab4f76db_re_1774416937583" data-origin-width="1280" data-origin-height="818"><div class="figcaption">확률 밀도 함수</div></div><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/228a14621ddc2c8c491ebaafd287fb0534df70d6_re_1774416937583" class="txc-image" width="600" height="383" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/228a14621ddc2c8c491ebaafd287fb0534df70d6_re_1774416937583" data-origin-width="1280" data-origin-height="818"><div class="figcaption">누적 분포 함수</div></div>  <div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/6e594ef562755dc91623abb65620d6e3f2bbc3f1_re_1774416937584" class="txc-image" width="600" height="349" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/6e594ef562755dc91623abb65620d6e3f2bbc3f1_re_1774416937584" data-origin-width="809" data-origin-height="471"></div>  MLP Head 특징<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>L번 반복한 Transformer Encoder의 마지막 출력에서 [CLS] 토큰만 분류 문제에 사용</li><li>마지막에 MLP를 이용하여 클래스 분류</li></ul>