http://bbs1.agora.media.daum.net/gaia/do/debate/read?bbsId=D115&articleId=2235846&pageIndex=1
윗 글의 사실성을 한번 검증해보겠습니다.
그루터기추억님의 주장은 상당히 헛갈리나 자세히 살펴보면
누군가 다음과 같은 절차 1), 2), 3)으로 박근혜의 득표수가 나오게끔 수학적으로 조작했다는 것입니다.
1) p(t)를 logistic-함수에서 정확하게 계산
"누가 어떤 로지스틱 함수를 이용해서 ... 시간대별로 정확한 로지스틱 확률값을 계산했었고 ...
이를 이용해서 ... 득표율과 득표량을 계산해 놓았었는가?"
2) f(t) 계산; 매 t마다 1)에서 계산된 p(t)를 아래식에 대입해서 계산하면 됩니다.
이식은 저는 처음 보는데 일반적인 logistic-함수는 아닌듯합니다. p(t)가 t에 따라 변하니까요.
3) 매시간 f(t)에 15,773,116을 곱해서 박근혜 득표수 산출
위의 식에서 각 t마다 p(t)를 알면 f(t)를 모두 구할 수 있습니다.
반대로 각 t마다 f(t)를 알면 p(t)를 모두 구할 수 있습니다.
추출된 아래 원문에 다음의 p(t)를 제시했습니다. 관찰된 f(t)에서 역으로 p(t)를 구한듯합니다.
역산을 해서 f(t)에 15,773,116을 곱하면 득표수가 나오게끔 p(t)를 조작했다는 지적이 많은데 그게 문제는 아닙니다.
왜냐하면 위의 1),2),3)과정으로 조작되었다면
조작한 사람이 로지스틱 함수에서 p(t)를 구하고 위의 식에서 f(t)를 구해서 거기서 구한 득표수를 방송했을테니까요.
역산은 그루터기추억님이 추적해나가는 과정에 불과하다고 볼수 있습니다.
문제는 과정 1)로 이 역산해서 구한 p(t)가 로지스틱 함수와 일치하는지가 문제의 관건인듯합니다.
다음이 그루터기추억님의 p(t)입니다. 시간대별로 로지스틱 확률함수 p(t)를 계산했으리라 가정했죠. 이걸 검증하는겁니다.
"설계된 함수로부터 ... 다음과 같은 ... 시간대별 로지스틱 확률함수 p(t)를 ... 미리 산출했다고 가정해 보자 ."
### R에서 SSlogis()로 fit해보죠.
# t입력
> t=1:21
# p(t)를 입력
> p=c(0.00016,0.00109,0.00311,0.00842,0.02226,0.05686,0.13516,0.28343,0.48708,0.67594,0.80616,
0.88725,0.93616,0.96373,0.98288,0.9935,0.99705,0.99864,0.99983,0.99992,1)
# SSlogis()로 fit
> out=nls(p~SSlogis(t,Asym,xmid,scal))
잔차를 보니 상당히 작네요.
그러나 정확한 로지스틱 함수에서 나왔다면 +/-가 어느정도 교차하는데
이건 쭉 -이다가 후반에는 쭉 +입니다.
즉 로지스틱함수와 비슷하기는 하나 조작이라면 로지스틱과 비슷한 다른 함수에서 나온게 아닌가 합니다.
> resid(out)
[1] -0.001138251 -0.001842580 -0.003500597 -0.006412415 -0.010678362
[6] -0.014669334 -0.013184613 0.001067618 0.017036358 0.010373429
[11] -0.009330325 -0.018404409 -0.016023835 -0.010577305 -0.001536192
[16] 0.004548839 0.006081180 0.006776811 0.007571013 0.007485981
[21] 0.007488603
그러나 원래 p값이 작아서 잔차가 상대적으로 그리 작은것 같지도 않고...
> cbind(p,resid(out))
p 잔차
[1,] 0.00016 -0.001138251
[2,] 0.00109 -0.001842580
[3,] 0.00311 -0.003500597
[4,] 0.00842 -0.006412415
[5,] 0.02226 -0.010678362
[6,] 0.05686 -0.014669334
[7,] 0.13516 -0.013184613
[8,] 0.28343 0.001067618
[9,] 0.48708 0.017036358
[10,] 0.67594 0.010373429
[11,] 0.80616 -0.009330325
[12,] 0.88725 -0.018404409
[13,] 0.93616 -0.016023835
[14,] 0.96373 -0.010577305
[15,] 0.98288 -0.001536192
[16,] 0.99350 0.004548839
[17,] 0.99705 0.006081180
[18,] 0.99864 0.006776811
[19,] 0.99983 0.007571013
[20,] 0.99992 0.007485981
[21,] 1.00000 0.007488603
# 아래 그래프를 보면 대충 fit이 나쁘지않는데
저자가 주장하듯이 정확한 로지스틱 함수에 확률값이 계산되었다고는 주장할 수 없을 것 같네요.
즉 누군가 조작했을지는 모르지만 로지스틱 함수에서 나온 확률값은 아닌것으로 보입니다.
근거는
1. fit이 정확히 일치하지 않아서 정확한 로지스틱에서 p(t)를 구했다고 할수 없고
2. 잔자가 +/-가 교차하지않고 초반은 -, 후반은 +여서
조작되었다 하더라도 로지스틱함수와 비슷한 다른 함수를 이용했을 가능성이 더 높습니다.
> plotfit(out)
첫댓글 허걱..!! 이거 진짜 신기한데요 ㅎㅎ 이렇게 생각하시는 분도 대단하다고 봅니다^^
엄청 고심했을 것 같습니다. 근데 너무 매끄러운건 좀 이상하기는 해요...
어떤 분이 Mathematica로 검정한 것도 있네요.
http://bbs1.agora.media.daum.net/gaia/do/debate/read?bbsId=D115&articleId=2238376
약간의 오차가 있다고 해도 너무 fitting이 잘 된 걸 보면 의심스럽긴 하네요.
접근방법 자체가 잘못되어 과학적으로 가치가 없습니다...