bootstrap 을 1000 번 이상을 돌려서 얻은 결과를 저장해야 하는데 지금 내가 싸우고 있는 data의 크기 영향으로 도저히 불가능해서 bootstrap횟수를 100번등 소규모로 쪼개서 저장하려 시도중이다. 처음에는 500번으로 쪼개서 두번이면 되겠지 했는데 여전히 너무 데이커가 커서 bootstrap 횟수를 줄이고 줄여서 이젠 겨우 10회에 도전하려 한다. 그러면 이짓을 100번을 해야 하는데 이것도 큰일이다. (사실 5회로 겨우 성공했다.)
그래서 bootstrap자체를 loop으로 돌려서 자동으로 파일명(가령 P_1.csv, P_2.csv처럼)을 만들 예정이다.
1. 먼저 저장할 path를 선정한다
setwd("D:\\DATA\\DJIA\\rds\\") #데이터가 저장될 폴더의 경로
2. 그리고 아래에 간단히 예를 든 for loop을 돌린다. (물론 실제로는 parallel, doSNOW package 등 모두 가동했으며, pbapply도 활용했다.)
for (i in 1:10){
boot= sample(1:100,10) # 데이터값 계산
#write.csv(boot, paste0("P4_", i,".csv"), row.names=F)
saveRDS(boot, file =paste0("myP4",sep="_",i,".rds"))
}
3. 지정된 path에서 저장을 확인한다.
문제가 없이 나의 의도와 같이 저장이 된다.
그런데 문제는 5번씩 한 set으로 총 200회의 for loop 이 필요한데 한번에 3시간반이 걸려서 3.5시간*200 = 700 시간,
700/24 = 29일이 걸린다.... 그래도 내가 아는 실력의 전부다. 다만 나는 인내심이 필요하고, 내 불쌍한 컴퓨터는 영문도 모르고 한달간을 돌아야 한다. 그리고 가난한 선비에게 하드웨어 감가상각비며 전기세 등 비용도 만만치 않게 부담이다. 해서 다시 Sparke와 SQL을 공부하기 했다.... 29일전에는 Sparke를 더욱 더 이해해서 지금 R이 하는 역할을 대체해야 한다.
나는 R, Python, Matlab 등을 남들보다 많이 공부를 했지만 그 이유는 "통계적 분석", "time Series", "Finance & Risk Management" 등 공부에 필요한 수학 및 통계학 이론공부였지만, Data Science는 "Big Data + 통계분석 + Machine Learning" 이기 때문에 나의 필수분야와는 다소 상이하지만, 그래도 통계분석이라는 분야에서는 공통점이 있고, 내가 내년의 학습목표로 두고 있는 Big Data와 관련된 고급기술만 더 익힌다면, 나는 계량경제학 박사지만 "Data Scientist 또는 Data Engineer"라는 전문가로 불리울 수도 있다.