제목 : Unsupervised Alignment-based Iterative Evidence Retrieval for Multi-hop Question Answering (ACL 2020)
Interpretability를 얻고자 하는 question answering work 들의 경우 HOTPOTQA 와 같이 데이터셋에 문장단위의 supporting fact가 주어진다. 이와 같은 경우를 supervised QA라 하며 반대의 경우, 정제된 supporting factor가 주어지지 않는 경우를 unsuperised QA라 한다. 이번 paper는 real world problem에 더 알맞다고 할 수 있는 이 unsupervised case를 다루는 연구이다.
그렇다면 어떻게 labeling 된 정보 없이 supporting fact를 찾을것인가? 이 논문에서는 이를 위해 기본적인 GloVE based의 alignment를 이용한다. 전반적인 workflow는 다음과 같다:
1. GloVe embedding을 이용해 query 와 문장들 사이의 cosine similarity를 계산한다. 이 중 그 값이 가장 큰 것이 align의 결과값, supporting factor가 된다.
2. Query의 token들 중 supporting factor 로 선택 된 문장에 해당하는 token들(cosine similarity > 0.95)을 제외 한다. 남은 token 들의 list 가 Q_r이 된다.
3. Q_r에 대해 1,2번 step을 반복한다. Q_r에 남은 token이 없어질때까지 반복한다.
(4.) 그리고 얻어 낸 문장들과 query를 이용해 ROBERTa 모델로 정답을 찾는다.
이 과정을 거치면 해답을 얻기 위해 여러 문장이 필요한 multi-hop question answering 문제에서 필요한 문장을 찾는것이 가능하다. 이 방법론은 BERT나 ROBERTa 같은 모델 대신 간단한 GloVe 임베딩만 사용한다. 다른 baseline과의 성능을 비교한 결과는 어떨까? 결과는 여러 unsupervised 방법론들은 물론 supervised RoBERTa retrieval 모델을 이용한 경우들 보다도 높은 성능을 보였다(신기하다). 문장 선택 단계는 물론 최종 정답 선택 결과에도 성능 향상이 있었다. 또, Q_r을 구성할 때 단어 matching이 아니라 cosine similarity를 확인 하는 방식의 soft align 방식을 사용했을 때 정확도가 훨씬 높았다. 예외 케이스가 많기 때문일까? 굳이 이 방법을 사용하는 게 의문이 들었는데 결과에 큰 차이가 있다니 놀라웠다.
간단한 임베딩 추출만 이용해서 꽤 높은 정확도로 golden sentence를 뽑아냈다는 것이 인상깊다.
첫댓글 너무 멋지네요^^ 연구에 큰 도움이 될 거 같아요~