• Daum
  • |
  • 카페
  • |
  • 메일
  • |
 
인공지능로봇연구실
 
 
 
카페 게시글
과제게시판 TransFormer(Attention Is All You Need, 2017) 리뷰
김위제 추천 0 조회 79 26.03.25 00:07 댓글 1
게시글 본문내용
 
다음검색
댓글
  • 26.03.27 09:10

    첫댓글 Scaled Dot-Product Attention 에서 Dot-Product 의 의미는?
    번역문제에서 토큰사이의 Dot-Product 의 의미는?
    Attention 블럭에서 Q,K,V의 의미는?
    encoder블럭에서는 Q=K=V인데 decoder블럭에서는 ouputs->Q, encoder->K=V인 이유는?
    층정규화(layer normalization)과 배치정규화(batch normalization)의 차이는?
    왜 트랜스포머 모델에서는 배치정규화보다 층정규화가 효과가 좋을까요?
    Masked mha에서 mask의 역할은?
    Masking 연산을 행렬연산으로 구현하는 방식을 설명하라.
    residual connection(잔차 연결)의 역할은?
    RNN와 transformer의 차이는?
    decoder블럭의 입력(아래쪽)에 있는 outputs와 출력(위쪽)에 있는 output의 차이는?

최신목록