Transformer, Attention Is All You Need (2017), review

카페 게시글

과제게시판 Transformer, Attention Is All You Need (2017), review

신민서 추천 0 조회 90 26.03.17 21:22 댓글 6

게시글 본문내용

다음검색

저작자 표시 컨텐츠변경 비영리

Sungryul Lee
26.03.19 09:53

첫댓글 decoder 블럭의 아래쪽의 outputs의 값의 의미를 설명하고 위쪽에 있는 output과 어떤관계인지 설명
언어번역의 예를 들어 실제로 반복실행할때마다 outputs 값이 어떻게 변해가는지 설명할것
decoder의 마스크 행렬은 계산할때마다 값이 변경되나요?
간단한 문장번역의 예를 들어 트랜스포머의 동작을 단계적으로 설명해볼것
신민서
작성자 26.03.19 10:31

디코더 하단의 outputs는 현재까지 생성된 누적 단어들을 의미합니다
상단에서 예측된 최종 output 단어가 다시 입력으로 추가되는 구조입니다

모델 추론 시 'I like apples'를 번역할 때 하단 입력이 <BOS>에서 시작해
<BOS> 나는, <BOS> 나는 사과를, 순서대로 <EOS>를 예측할 때까지 하나씩 만드는 구조입니다

모델 학습 시에는
<BOS> 나는 사과를 좋아한다 <EOS>
에서 shifted right (논문에서 디코더 하단의 output에 있는 의미) 오른쪽으로 한 칸 밀어서
<BOS> 나는 사과를 좋아한다
로 한 번에 넣고 병렬 처리를 하는 구조입니다

디코더의 마스크 행렬에 세팅한 -inf 값 (디코더 성질 auto-regressive을 유지하기 위함) 자체는 고정되어 있습니다

<BOS>(=SOS) : Beginning of sequence
<EOS> : End of sequence
Sungryul Lee
26.03.19 16:31

모든 단어(토큰)들은 임베딩 벡터 즉, R^n 공간의 한점(n차원 실수벡터)으로 대응되는데 이런 관점에서 언어번역의 문제를 수학적으로 설명하면 뭐가 되나요?
한글 단어들을 n차원 실수 벡터로 대응시킨후 모아놓은 벡터공간 V과 영어단어들을 모아놓은 n차원 실수벡터들을 모아놓은 벡터공간 W사이의 대응관계 w=f(v), w in W and v in V를 찾는 문제로 해석해도 되는가 검토해볼것
Sungryul Lee
26.03.19 19:50

decoder 블럭의 multi head attention블럭은 outputs에서 온 입력을 query로 사용하고 key,value는 encoder에서 온값을 사용한다. 이것의 의미는 무엇인가?
Sungryul Lee
26.03.19 20:07

임베딩 벡터공간에서 두 벡터의 유사도는 어떻게 측정하는가?
임베딩 벡터공간에서 두벡터의 차이(거리)는 어떤의미를 갖는가?
한글임베딩공간에서 남자,여자 벡터의 거리와 영어임베딩공간에서 man, woman벡터의 거리는 비슷할까?
한글임베딩공간에서 나는 너를 사랑해의 각벡터를 이은 경로와 영어임베딩공간에서 i love you의 각 벡터를 이은 경로가 비슷할까?
어텐션은 임베딩공간에서 단어 벡터사이의 관계를 어떻게 파악하는가?
Sungryul Lee
26.03.19 20:22

참고동양상 https://youtu.be/_Z3rXeJahMs

PLAY

검색 옵션 선택상자

댓글내용선택됨 옵션 더 보기

댓글내용

댓글 작성자

최신목록

인공지능로봇연구실

https://cafe.daum.net/SmartRobot

카페 전체 메뉴