주시하시듯이 제가 지금 R에서 big-data에 막혀 한달째 Python은 물론 SQL, Hadoop, Spark, Tensorflow, Kerea, PyTorch, PySpark등으로 regression을 한달째 공부하고 있는데 Python이 저의 문제를 풀어주리라는 기대감이 더 커지고 있습니다.
다음주면 R코드를 Python으로 온전히 변환하여 돌릴수 있을 것 같습니다.
저는 계산속도 또한 매우 중요하기 때문에 (가령 R을 이용하면 보통 한개의 국가를 돌리는데 보통 1.5일이 걸렸는데 한개의 논문 데이터 분석에만 최소 한달이 걸린다. 물론 sub_series data가 크렇다는 것이고 전체를 합친 데이터는 조금 돌다가 자결을 한다.) Gradient_Descent(GD)는 물론 Stochastic_GD, elasticNet까지도 이론적 공부와 coding까지 완성을 했고, 30개 이상의 다양한 샘풀을 구해서 line by line으로 공부를 통해 같은 PySpark이나 Tensorflow 등을 통한 회귀분석 사례중에서도 더 속도가 빠른 코드를 찾아낼 예정입니다.
하여튼 결론은 Python for loop에 매우 놀랐다는 점입니다. 정말 파이썬이 코딩하기가 쉽다는 말이 거짓말이 나닌 것 같구, 그리고 속도도 매우 빠르다는 것을 실감했습니다.
여러분을 위해 몇개의 코드를 준비했습니다.
코드1 : zip
rank=[*range(1,6)]
Country=['Boston','Sydney','Singapore','Hong Kong','Georgia']
for i,j in zip(rank,Country):
print(i,j)
1 Boston 2 Sydney 3 Singapore 4 Hong Kong 5 Georgia
코드 2 : enumerate
Country_bucket_list=['Boston','Sydney','Singapore','Hong Kong','Georgia']
for i, name in enumerate(Country_bucket_list):
print('{}순위: {}'.format(i + 1, name))
1순위: Boston 2순위: Sydney 3순위: Singapore 4순위: Hong Kong 5순위: Georgia
시리즈별로 올릴 예정입니다.