포커에서 승리하려면 카드를 버리거나 버리지 않을 승부를 거는 타이밍이 중요하다. 미국 카네기멜론대학 연구팀이 개발한 인공지능 시스템은 이런 포커 기술을 활용, 세계 최고 프로 포커 플레이어 중 하나인 한국계 김동규(Dong Kim), 지미 추(Jimmy Chou), 다니엘 맥컬레이(Daniel McAulay), 제이슨 레스(Jason Les) 4명에게 승리를 거뒀다.
인공지능과 인간의 포커 대결은 지난 1월 11일부터 20일 동안 피츠버그에 위치한 리버 카지노에서 열린 헤즈-업 노리미트 텍사스 홀덤(Heads-up No-Limit Texas Hold’em)을 통해 이뤄졌다.
승자는 앞서 설명했듯 인공지능 포커 시스템인 리브라투스(Libratus)에게 돌아갔다. 프로 4명과의 대결에서 승리를 거둔 인공지능은 결국 176만 6,250달러 칩을 획득하는 데 성공한 것. 당초 인공지능은 포커를 몰랐지만 연구팀은 인공지능에 무작위로 다양한 시도를 하도록 지시해 수억 번에 이르는 시행착오를 거쳐 포커를 이기는 방법을 터득했다. 인간 플레이어는 매일밤 10시까지 11시간 동안 인공지능과 대결하는 걸 20일 동안 반복했다.
카네기멜론대학 연구팀 튜오머스 샌드홀름(Tuomas Sandholm) 교수는 인공지능을 이용해 불완전한 정보에서 전략적 이유를 부여할 수 있는 능력은 인간의 능력을 넘어섰다고 설명한다.
이번 대결에서 인공지능이 필요로 한 건 1.35페타플롭스를 처리할 수 있는 PSC(Pittsburgh Supercomputing Center) 내 브리지846(Bridge 846) 노드 슈퍼컴퓨터 중 600 컴퓨팅 노드와 전력 뿐이었다.
대결에 참여한 플레이너는 리브라투스는 생각했던 것 이상으로 강한 상대였다고 밝혔다. 플레이어는 인공지능의 약점을 찾기 위해 새로 협력했지만 인공지능도 마찬가지로 자신의 약점을 연구해갔다.
프랭크 페닝(Frank Pfenning) 카네기멜론대학 컴퓨터과학부 학장은 인공지능은 허풍을 떠는 방법까지 기억해야 포커에서 이길 수 있다면서 이를 갖춘 인공지능을 개발하는 건 과학적으로 큰 진전이며 응용할 수 있는 분야도 광범위할 것이라고 말했다. 예를 들어 신차를 사고 싶을 때나 스마트폰이 사람을 대신해 최선의 가격을 협상할 수 있게 되는 걸 들 수 있다. 인공지능의 또 다른 진보인 것. 포커처럼 정보가 불완전하거나 상대방이 올바른 정보를 제공하지 않는 상황에서도 폭넓게 적용할 수 있게 될 가능성을 말하는 것이다.
인공지능은 전날 경기에서 실패한 부분을 반영, 전략을 수정할 수 있다. 매일 대전이 끝난 이후 메타 알고리즘이 프로 플레이어의 전략에서 문제점을 분석하면 리브라투스는 이를 다음 전략에 반영했다. 약점 중 우선순위 3개를 놓고 전략 알고리즘을 짠다. 물론 과거 포커 학습 방법과는 다르다. 보통 상대방의 약점을 찌를 알고리즘을 개발하지만 이번 인공지능은 자신의 전략적 약점을 메우는 식으로 알고리즘을 개선하는 것이다.
리브라투스는 협상 자동화나 생물학, 공학에서 복잡한 과제에도 적용할 가능성이 있다. 인공지능은 프로 포커 플레이어 4명이 아닌 불완전한 정보가 많은 복잡한 문제를 해결할 수 있도록 훈련시킬 수 있다.
첫댓글 대화
대화