오늘은 AAAI-18 에 발표되었던 Long Text Generation via Adversarial Training with Leaked Information 논문을 리뷰해보려한다.
이 논문도 Generative 모델에 대한 내용이며, GAN을 더 효과적으로 학습할 수 있게끔 발전시켰다.
기존 방법에서는 Discriminator가 Generator에게 scalar guiding signal를 주는 방식으로 학습이 진행됐다.
전 리뷰글에서 설명된 RankGAN은 원래 맞다/아니다의 binary로 제공되던 Discriminator output을 rank로 바꾼 연구일텐데 (맞겠지?)
이것 마저도 text의 길이가 길어질수록 충분한 정보를 제공하지 못한다고 한다.
그래서 LeakGAN에서는 아예 Discriminator가 사용하는 feature vector를 유출(leak)해 Generator가 활용하는 방식으로 구성되어있다.
이렇게 feature 정보가 Generator 전체를 총괄하는 Manager로 전달되면 Worker가 만들어낸 임베딩과 함께 단어를 하나하나 만들어낸다.
그림에서 보다시피 문장은 단어단위로 하나씩 만들어지며 이를 이 논문에서는 sequential decision making problem으로 보고 풀어냈다.
그리고 그 decision making을 위해서는 hierarchical 강화학습을 이용했다. 역시 generative model 에서는 강화학습이 필수인가보다.
이건 Manager가 학습되는 gradient 식인데, feature 벡터의 변화량과 (f_(t+c)-f_t) 만들어 내는 goal vector(g_t(theta_m))의 차이를 좁히면서 reward를 높이는 방향으로 학습되게 설계되었다고한다..
그리고 Worker 도 아무튼 높은 reward를 얻을 수 있는 방향으로 학습된다고 한다.
역시 강화학습은 어렵다.
결과적으로 LeakGAN은 긴 문장은 물론이고 짧은 문장들에서도 좋은 성능을 보였다.
문장들을 잘 만들어내는 것을 볼 수 있다.
사람들도 기계들도 참 똑똑한 것 같다.
첫댓글 멋지네요~~ 제출하고 바로 리뷰를 쓰다니...
저밖에 안썼나요??? 다들 초심잃었네ㅡㅡ