Unsupervised (..) Question Answering 리뷰

제목 : Unsupervised Alignment-based Iterative Evidence Retrieval‎ for Multi-hop Question Answering (ACL 2020) Interpretability를 얻고자 하는 question answering work 들의 경우 HOTPOTQA 와 같이 데이터셋에 문장단위의 supporting fact가 주어진다. 이와 같은 경우를 supervised QA라 하며 반대의 경우, 정제된 supporting factor가 주어지지 않는 경우를 unsuperised QA라 한다. 이번 paper는 real world problem에 더 알맞다고 할 수 있는 이 unsupervised case를 다루는 연구이다.그렇다면 어떻게 labeling 된 정보 없이 supporting fact를 찾을것인가? 이 논문에서는 이를 위해 기본적인 GloVE based의 alignment를 이용한다. 전반적인 workflow는 다음과 같다: <div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1Z6Ow/f6982129558cc60836226e2d5014b564ebf07c22" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1Z6Ow/f6982129558cc60836226e2d5014b564ebf07c22" data-origin-width="946" data-origin-height="767"></div> 1. GloVe embedding을 이용해 query 와 문장들 사이의 cosine similarity를 계산한다. 이 중 그 값이 가장 큰 것이 align의 결과값, supporting factor가 된다. 2. Query의 token들 중 supporting factor 로 선택 된 문장에 해당하는 token들(cosine similarity > 0.95)을 제외 한다. 남은 token 들의 list 가 Q_r이 된다.3. Q_r에 대해 1,2번 step을 반복한다. Q_r에 남은 token이 없어질때까지 반복한다.(4.) 그리고 얻어 낸 문장들과 query를 이용해 ROBERTa 모델로 정답을 찾는다. 이 과정을 거치면 해답을 얻기 위해 여러 문장이 필요한 multi-hop question answering 문제에서 필요한 문장을 찾는것이 가능하다. 이 방법론은 BERT나 ROBERTa 같은 모델 대신 간단한 GloVe 임베딩만 사용한다. 다른 baseline과의 성능을 비교한 결과는 어떨까? 결과는 여러 unsupervised 방법론들은 물론 supervised RoBERTa retrieval‎ 모델을 이용한 경우들 보다도 높은 성능을 보였다(신기하다). 문장 선택 단계는 물론 최종 정답 선택 결과에도 성능 향상이 있었다. 또, Q_r을 구성할 때 단어 matching이 아니라 cosine similarity를 확인 하는 방식의 soft align 방식을 사용했을 때 정확도가 훨씬 높았다. 예외 케이스가 많기 때문일까? 굳이 이 방법을 사용하는 게 의문이 들었는데 결과에 큰 차이가 있다니 놀라웠다. 간단한 임베딩 추출만 이용해서 꽤 높은 정확도로 golden sentence를 뽑아냈다는 것이 인상깊다.