[김용신-radio] -- 노래 제목의 빈도수에 따른 워드클라우드2로 시각화 하기
1. SQL전처리 (radio_ki.txt 데이터 전처리)
☑️노래 제목 앞에 붙은 숫자. 제거
create table radio_kim1
as
select substr(title,instr(title,'.')+1) title
from radio_kim;
☑️가수이름 제거 & null인 행 제거 & <○부>제거
select substr(title,instr(title,'-')+1) title
from radio_kim1
where title not like '%<%' and title is not null;
2. R로 구현하기 - 시각화 (wordcloud2)
# 텍스트 파일 불러오기
txt<-readLines("kim_radio.txt")
# 특수문자 제거 및 공백 처리
cleaned_txt <- gsub("[^[:alnum:][:space:]]", " ", txt)
cleaned_txt <- gsub("\\s+", " ", cleaned_txt)
radio_song<-cleaned_txt
#데이터프레임구조로 변환하기
radio_song<-data.frame(word = radio_song)
#단어의 빈도수를 세기 위해 행 번호 부여하는 컬럼 생성
radio_song$freq<-1:nrow(radio_song)
#단어의 빈도수 세기
a <-aggregate(freq~word,radio_song,length)
a
#단어의 빈도수에 따라 정렬시키기
radio_song<-a[order(a$freq,decreasing = T),]
#wordcloud2로 시각화하기
radio_song
wordcloud2(data = radio_song,shape = "circle",color = 'random-light')
⚠️가수를 제거한 데이터로 시각화하였는데, 노래제목은 동일한데 가수이름이 다른 경우도
있어서 시각화한게 정확하다고 보기 어려울 것 같습니다.