구글의 인공지능 알파고(AlphaGo)가 유럽 바둑 챔피언 판후이(Fan Hui) 2단을 5:0으로 이기다^ 네이처에 논문 발표^
구글이 2014년에 인수한 영국의 딥마인드(DeepMind)가 개발한 알파고(AlphaGo). 한쪽은 유럽 바둑 챔피언 판후이(Fan Hui) 2단이고 반대쪽은 사람이 아니라 바둑 컴퓨터 프로그램 알파고. 결과는 5대 0으로 알파고의 완승. 이 인공지능은 오는 3월 서울에서 이세돌 9단과 12억원의 상금을 놓고 대국을 벌인다.
딥마인드 개발자 데미스 하사비스(Demis Hassabis) 부사장은 "바둑은 경우의 수가 우주에 존재하는 원자 수보다 많다. 바둑은 체스와 비교할 때 경우의 수가 10의 100제곱 이상 많아 컴퓨팅화 하기 어려운 대상"이라고 말했다. 그만큼 바둑은 인공지능 알고리즘을 빠르고 효율적으로 개발하고 시험해볼 수 있는 좋은 플랫폼이라는 것이다. 알파고에는 프로 바둑기사가 실제로 둔3000만 건의 대국 기보가 알고리즘으로 입력됐다. 그런 다음 4주 연속 단 1초도 쉬지 않고 알파고는 학습했다. 알파고를 개발한 데이비드 실버(David Silver)는 "알파고가 바둑을 학습한 시간을 인간의 시간으로 환산하면 약 1000년의 세월"이라고 설명했다(노컷뉴스, 29 Jan 2016)
알파고의 딥러닝 알고리즘은 2016년 1월 28일자의 Nature지에 논문으로 발표됐다. 알파고가 사용한 것은 바둑판의 위치를 판단하는 가치 네트워크(Value networks)와 어디를 두어야 할지를 선택하는 폴리쉬 네트워크(Policy networks)로 구성된 딥뉴럴네트워크(Deep Neural Networks)이다. 이 DNN을 학습시키는 방법에는 사람에 의한 지도학습(Supervised learning)과 데이터 기반의 비지도학습(Unsupervised learning)이 있다. 그런데 이번에 알파고의 DNN은 전문 바둑기사들(human expert games)에 의한 지도학습과 스스로 바둑 게임(self-play)을 하면서 배우는 강화 학습(reinforcement learning)이라는 새로운 콤비(a novel combination)라는 방식으로 학습했다. 결국 사람에 의한 지도학습의 폴리쉬 네트워크(SL. policy network)로 먼저 학습을 하고 그 이후에 스스로 하는 강화학습 폴리쉬 네트워크(RL. policy network)를 통해 폴리쉬 네트워크(Policy networks)와 가치 네트워크(Value networks)를 구성한 것이다. 그 결과 이 DNN은 스스로 바둑 게임을 하면서 수천 건의 게임을 시뮬레이션하는 몬테칼로 나무 서치 프로그램(Monte Carlo tree search programs)의 수준에 올랐다.
또한 몬테칼로 시뮬레이션과 가치 네트워크와 폴리쉬 네트워크를 합쳐 새로운 서치 알고리즘(algorithm)도 개발했다. 이 새로운 서치 알고리즘을 이용해, 알파고의 DNN은 다른 유사한 인공바둑프로램들을 대상으로 게임한 결과 승률이 99.8%에 달했으며,결국 유럽 챔피언인 판후이(Fan Hui) 2단을 5:0으로 이길 수 있었다.
1) Youtube via 연합뉴스 - 바둑기사 이긴 인공지능…'명인'도 이길까?(28 Jan 2016)
https://www.youtube.com/watch?v=kmdwsXUVnMk
2) Youtube - Google DeepMind: Ground-breaking AlphaGo masters the game of Go(27 Jan 2016)
https://www.youtube.com/watch?v=SUbqykXVx0A
3) 노컷뉴스 - 구글 '알파고' 이세돌 9단과 승률 "50 대 50" 자신감(29 Jan 2016)
http://www.nocutnews.co.kr/news/4540390
4) 노컷뉴스 -[인터뷰] 이세돌 "알파고? 당연히 내가 이긴다"(29 Jan 2016)
http://www.nocutnews.co.kr/news/4540501
5) 헤럴드경제 - [바람난과학] 구글은 왜 이세돌과 바둑 대국을 벌일까?(29 Jan 2016)
http://hooc.heraldcorp.com/view.php?ud=20160129000543
6) 논문 : David Silver, Demis Hassabis et al., "Mastering the game of Go with deep neural networks and tree search", Nature, Vol. 529, No. 7587, pp. 484-489, doi:10.1038/nature16961, 28 Jan 2016.
http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html
#인공지능, #기계학습, #딥러닝, #알파고, #AlphaGo, #딥마인드, #DeepMind, #바둑, #판후이, #이세돌