오늘은 2020-12-29일이다. 약 7일 정도 R이 자랑하는 Big-Data Package들 (biglm, bigmemory, ff, ffbase, data.table(fread/fwrite) 등 모든 패키지를 뒤졌으나, 역시 중형급 크기의 Data의 RAM (2~4G RAM)의 벽에 부딪치고 말았다. 그래서 결국 R을 잠쉬 쉬고 파이썬 "PySPARK"와 며칠 좀 놀다가 R로 복귀할 생각이다. 만일 파이썬도 실패를 한다면 2021년은 SQL, Hadoop과 SPARK에만 집중을 할 생각이다. 어차피 배움은 머리속에 기억으로 잘 저장되기 때문에 시간낭비라던가, 정렬이 식는다던가, 후회 스럽다 라는 식의 excuse는 필요가 없다.
몇년전에 사두었던 Python책도 다시 먼지를 털며 준비를 시켰고, 그간 부분 부분 공부를 하던 파이썬도 전체그림에서 접근할 예정이다. 일단 문제가 되는 R code를 Python으로 변환하서 두 결과를 순차적으로 비교하며 돌려서, 최종적으로 RAM메리리 할당 오류로 인해 실패했던 R에서의 경험이 Python에서는 "통"하는 가를 시험해볼 예정이다.
시간은 올 연말까지로 일단 아무 생각없이 잡았는데 오늘 아침에 Excel Date (가령 43831-->'2020-01-01')를 파이썬으로 변환하는 데만 두시간이 소요되었다. 코딩의 영감은 바로 오는데, 문제는 Python이 원하는 방식이 아니다. 이제부터 겸손하게 파이썬과 더 친해질 예정이다. 만일 여러분이 초보자라도 따라 읽을 수 있는 수준으로 파이썬 시리즈를 만들어 볼 생각이다. 시리즈 이름은 "babyPy"로 정했다. 그럼 아기야 출발~~~~