|
현제 빅데이터는 1강 2중 2약의 뚜렷한 추세 보여... | |||||||||||
| |||||||||||
최근 빅데이터가 선거결과를 예측하는 중요한 수단이 되고 있으며 이에 따라 대선에서의 빅데이터의 추세에 대한 관심이 높아지고 있다.
그런데 여론조사라는 것이 모집단의 대표성을 갖는 충분한 샘플링이 전제 되어야 하나 대부분은 그렇지 않다. 특히 선거에서는 조사기관이 의도적으로 질문을 설계하고 표본을 조작하면서 의뢰자의 입맛에 맞는 결과가 나오기 쉽다.
그러나 빅데이터는 이러한 조작이 가능하지 않으므로 여론조사보다 더 정확히 예측할수 있다. 인도의 인공지능 모그가 힐러리의 우세를 점쳤던 여론조사와 달리 트럼프가 당선을 예측한 것처럼 여론조사보다 빅데이터가 정확한 사례는 수도 없이 많다.
구글트렌드 서비스(http://trends.google.com)가 제공하는 구글의 빅데이터를 이용하여 4월 28일 판세를 분석한 결과 문재인의 독주와 , 안철수와 홍준표의 2중, 심상정과 유승민의 2약으로 굳어져 가고 있다.
4월 30일, 대선 후반 D-9 구글 빅데이터 분석 결과 다음과 같이 문재인의 독주로 1강 2중 2약의 뚜렷한 판세로 가고 있다. 선거운동이 시작된 4월 17일 부터 4월 30일 오전 7시까지의 전세계 구글의 웹상의 데이터를 기반으로 한 트렌드로 선거 결과를 예측해 보았다.
정확한 예측은 어렵지만 그동안 빅데이터를 통한 연구를 통해 나름의 선거예측 모델 ESM 을 만들어 분석한 결과 만약 지금 당장 투표를 한다면 문재인 45%, 안철수 21%, 홍준표 16%,심상정 8%, 유승민 4%순으로 득표율을 받지 않을까 예측된다.
물론 홍준표가 후반으로 갈수록 안철수의 지지율을 상회하는 모습을 보이고 있어 막판에는 홍준표가 안철수를 앞지르는 결과도 예상할수 있다.
이같은 결과는 4월 24일 유승민 후보 사퇴를 종용하는 바른정당의 의원총회가 있고, 반문연대가 본격 논의되는 가운데, 25일 밤 JTBC 토론회 이후 홍준표후보가 빅데이터에서 처음으로 안철수를 앞지르는 의미있는 빅데이터 분석이 나온이 래이후 홍준표의 선전으로 대선은 이제 1강 2중 2약의 판세로 굳어지고 있는 것을 보인다.
또한 4월 28일 KBS 대선 토론은 관심도 추세에 별다른 영향을 미치고 있지 않다는 것을 보여준다. 즉 이제 유권자의 후보별 공약이나 지지율이 굳어지는 모습을 보이고 있다고 볼수 있다.
참고로 지난 4.3일 민주당 경선에서 문재인, 안희정, 이재명 시장의 득표율을 예측한 것은 구글 트렌드 빅데이터였다. 경선 한달간의 평균 관심도에서 연관 상수 3을 빼면 그래프와 같이 경선결과에 오차가 1% 이내로 정확히 일치하는 모습을 보여준다.
다음은 4월 28일 대선 운동기간중의 구글 빅데이터를 분석한 내용이다.
참고로 이 기간중 급상승 검색어를 보면 다음과 같다. 즉 안철수와 홍준표의 검색어는 대부분 부정적인 검색이 주를 이루고 있음을 볼수 있다.
참고로 다음은 D-13일 4월 26일 오후 5시 기준 대선 D-13일의 대선판세이다.
5명의 후보에 대한 전세계에서의 관심도를 구글의 모든 웹상의 데이터로 분석해 결과 문재인이 29로 일위를 지키는 가운데, 일일간의 관심도는 홍준표가 19, 안철수 14, 심상정 9, 유승민 8로 나타났다.
4월 3일 민주당 경선이후 이재명과 안희정 후보로 몰렸던 보수표심이 안철수로 갔다가 17일 문재인이 부동의 일위로 올라선후 4월 25일 토론회를 기점으로 다시 홍준표가 2위로 도약하여 문재인과 홍준표의 대결이 가시화하는 추이가 빅데이터에서 나타난 것이다.
| |||||||||||