2021년을 맞이하여 문득 그동안 유저들의 가장 뜨거운 감자는 뭐였을까 궁금해서 재미삼아 빅데이터 분석을 해봤습니다
제가 전공자이긴 하지만 머신러닝은 쬬끔 서툴러서 고수분들이 분석하는 것과 다를 수 있습니다
재미로만 봐주세요 ~ 😋
1. 데이터 수집
사이트: 매직위버 #유저의소리 게시판
기간 : 19.01.01 ~ 20.12.31
데이터: 1276개 게시물 크롤링 데이터
2. 데이터 전처리
네트워크 오류로 인한 중복데이터 삭제 + 사진만 있고 글 없는 빈 게시글 삭제 + ....
=> 1232개
3. 데이터 분석
1) Python의 sklearn이라는 딥러닝 라이브러리 중 TF/IDF를 사용하여 형태소들을 가중치 벡터화
=> 648개 단어조합 중 50위까지 출력
* "있습니다", "바랍니다", "하는", "모든" "수" 등등의 의미 없는 불용어들은 최대한 제외시켰습니다
2) 그리고 다시 100위까지 데이터를 워드클라우드로 뽑아 봤습니다
=> 위 데이터를 워드클라우드가 형태소 단위로 분석해서 위 표와 잘 안 맞을 수 있습니다
4. 인사이트
아무래도 지난해 초부터 가장 핫이슈였던, 그리고 꾸준히 언급되었던
머큐리얼 시드보상 / 머루 난이도 / 리노베이션 / 필드보스 / 서버렉과 관련한 단어들이 눈에 띄네요
시드보상은 다시 롤백됐고 머루 난이도도 개선됐고 이렇게 보면 또 은근히 패치된 것들이 많은 것 같습니다
역시나 지난해 말에 있었떤 보리스 막시민 리노베이션과 관련해서도 꽤 핫했구요
데이터 범위가 19년도까지 포함되어 있어서 그런지 몰라도
'음 이 단어가 더 많을 것 같았는데?' 싶은 단어들이 50위권 밖에 자리하기도 했습니다.
그리고 사실은 '아니' '이건' '좀' '진짜' 이런 단어들을 포함해서 욕설은 아니지만 욕 같은 단어들도 굉장히 많았는데
제가 전처리 과정에서 살짝 제외시켰습니다 ㅋㅋㅋㅋㅋ
그거 없이 그냥 진짜로 raw하게 보면 굉장히 재밌습니다 ㅋㅋㅋㅋ
'제발 고쳐주세요'나 '말도 안되는', '이유가 뭐죠', '이해가 안되네요' 같은 조합들은
제 웃음지뢰라 그냥 그대로 나뒀습니닼ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
이걸 좀 더 고도화시키면 유저들 피드백을 더 수월하게 받을 수 있지 않을까 합니다
현업에서 사업기획이나 마케팅에서 많이들 쓰니깐요
(사실 그렇게 하지 않아도 유저 게시판 훑어만 보더라도 알 수 있을 텐데.... 그럴 일이 없겠죠....)
무튼 이렇게 보니까 여러분들의 고통이 리마인드 되는 것 같네요 ㅋ.ㅋ
2021년에는 레어도 많이 먹고 덜 고통스럽게 재밌게 즐겨봅시다~
새해복 많이들 받으십쇼 !
첫댓글 승보가없네
뺐습니다 ㅋㅎ
재밌네. 진행 시켜.
드가자~
옆집 원기는 이름만 쳐도 애미가 나오는데.. 우리 승보는...
ㅋㅋㅋㅋㅋㅋㅋ할많하않입니다
재밌는 조사네요ㅋㅋ정성추!
감사합니다 🥳
삭제된 댓글 입니다.
하면서도 재밌었습니다 ~~ ㅎㅎ
제발고쳐주세요ㅋㅋㅋㅋㅋㅋㅋ
ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
넷마이너 쓰신건가요? 단어 전처리 하신거보니 언어 네트워크 분석 하신것 같아서요!
비슷합니다 pandas로 데이터 다듬고 연관있는 단어끼리 묶어주는 벡터화 작업했습니다 ㅎㅎ