1) Case.csv 를 스칼라로 로드해서 테이블 생성
scala > val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
# case2 테이블 생성
scala > sqlContext.sql( "CREATE TABLE IF NOT EXISTS case2(deptno int, dname string, loc string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'")
# 로드하기 위해 Case.csv 를 case2.txt 로 복사
(또다른 창) $ cp Case.csv case2.txt
# case.txt 를 case2 테이블에 복사(?덧씌우기?)
(다시 스파크) scala > sqlContext.sql("LOAD DATA LOCAL INPATH '/home/scott/case2.txt' INTO TABLE case2")
2) 지역, 지역별 코로나 감염자 수를 count
scala > sql("""select province, sum(confirmed)
from case2
group by province""").count()
>>>res7: Long = 17
# 파이썬에서 csv 파일 읽기 위해 위의 코드를 csv 파일로 저장
scala> sql("""select province, sum(confirmed)
from case2
group by province""").coalesce(1).write.option("header","true").option("sep",",").mode("overwrite").csv("/home/scott/dd")
# scala 에서 올려진 csv 파일 이름 변경
(또 다른 창) $ cd /home/scott/dd
$ mv part-r-00000-ab49e547-4ac0-41e5-8fe3-1bb4da09f7e1.csv case.csv
3) 파이썬에서 막대그래프로 시각화
import pandas as pd
case2=pd.read_csv("/home/scott/dd/case.csv")
result=case2['sum(confirmed)']
result.index=case2['province']
result.plot(kind='bar',color='wheat')