https://www.gokams.or.kr:442/webzine/wNew/column/column_view.asp?idx=2452
“사이즈가 커서 빅데이터 아닌가요?”
“데이터요? 한글과 PDF 자료로 드려도 되나요?”
“이번에 공연을 영상으로 제작했어요. 열심히 데이터 쌓고 있어요.”
이것은 실생활에서 흔히 나누는 대화이다. 당연히 헷갈릴 수 있는 내용이다. 질문에 대한 답을 하자면 컴퓨터에 저장되어 있다고 모두 데이터라 할 수 없고, 사이즈가 크다는 이유만으로 빅데이터라고 할 수 없다. 빅데이터 분야에서 일하고 있다 보면 설문조사 의뢰를 종종 받는다. 그럼 어디서부터 설명해야 할지 잠시 고민하게 된다.
거창한 이론적인 개념 말고, 몇 가지 사례를 들어 이야기하고자 한다. 적은 양의 데이터라도 패턴을 읽을 수 있거나 인사이트를 얻을 수 있다면 빅데이터라고 할 수 있다. 단순히 데이터를 수량에 따라 데이터와 빅데이터로 구분할 수 없다. 지도 데이터의 경우, 대량의 데이트세트(dataset, 관련 정보를 모아놓은 데이터 파일)이지만 그 안에서 특별한 의미를 직접적으로 얻을 수 없다면 빅데이터라고 보기 힘들다. 다만 그 데이터 위에 금융, 기후, 교통 등의 다른 데이터를 레이어(layer, 층/겹/단계) 형식으로 덮어서 인사이트를 볼 수 있게 만든다면 빅데이터로 볼 수 있다.
가끔 10년 치 뉴스 기사를 스크랩해서 파일로 가지고 있다고 이야기하면서 본인은 빅데이터를 가지고 있다고 하는 경우가 있는데, 그건 ‘콘텐츠’를 가지고 있는 것이다. 만약 그 콘텐츠가 정형화(일정한 형식, 구조)된 내용으로 정리해둔 자료가 아니라면 쓸 수 없는 가비지(garbage, 쓰레기)라고 본다. 문서 파일인 한글이나 PDF를 데이터로 활용하기 위해선 OCR(광학문자인식)을 통해 텍스트를 추출한 후, 가비지 정제 등 전처리 과정이 필수적이다. 기계는 ‘남성’과 ‘남자’를 다른 데이터로 인식하고, 번호 ‘13’도 칼럼(column, 엑셀의 row 값) 정의에 따라 각각 숫자와 문자로 다르게 인식한다. 참고로 이러한 전처리 과정은 생각보다 시간과 손이 많이 가는 작업이다.
문화예술계 종사자들이 현장에서 빅데이터 구축을 준비한다면, 가장 먼저 해야 할 일은 최대한 모든 자료를 데이터화하는 것이다. 외부 데이터를 활용할 생각보다는 내부 데이터부터 정리하여 분석해야 한다. 그래야 외부 데이터를 만났을 때 비로소 원하는 데이터 분석이 가능할 수 있다. 데이터는 모든 빅데이터의 기반이다. 맛있는 요리(빅데이터)를 만들기 위한 신선한 재료(데이터)와 같다. 하지만 현실은 남의 요리(외부 데이터)와 값비싼 요리 장비(인프라 구축)에만 관심을 쏟고 있다. 한글이나 PDF뿐 아니라 이미지, 동영상과 같은 콘텐츠들도 속성값들을 뽑아내 메타데이터(제목, 상영시간, 제작단체, 연출, 출연진, 줄거리 등) 형식으로 정리하면 좋다. 엑셀로 정리한 자료를 전처리 후 CSV(기계가 인식하는 엑셀 정도로 이해하자)로 변환하면 그것이 빅데이터로 가는 시작이다. 그리고 인공지능(AI)으로 넘어가면 우리가 하고 싶은 ‘예측’과 ‘추천’이 가능해진다. 그러기 위해서는 나와 우리 단체의 데이터부터 준비해야 한다.
____
문화 데이터를 활용해 서비스하는 빅데이터 플랫폼
① 예술인 인물 관계망 서비스, ‘링크드 재즈(Linked Jazz)’
‘링크드 재즈(Linked Jazz)’는 여러 아카이브 사이트의 재즈 뮤지션 동영상 인터뷰 50여 개에서 텍스트를 타이핑하고, 언급된 인물들을 추출하여 서로의 관계 정보를 지식 그래프(Knowledge Graph)로 시각화한 서비스다. 이것은 시맨틱 웹(Semantic Web) 기술 중 LOD(Linked Open Data)를 활용한 것으로, 의미 관계망 빅데이터를 처리하기에 적절하다. A는 B의 선생님이고, C는 B와 형제이며, C는 A와 함께 공연했다는 관계를 데이터로 보여줄 수 있다. 그리고 LOD의 가장 큰 장점은, 일일이 예술인 정보를 찾을 필요 없이 디비피디아(DBpedia, 위키피디아 정보를 데이터화)와 같은 외부 인물정보를 링크로 연계(인터링킹, InterLinking)하여 서비스할 수 있다는 것이다. 이러한 서비스는 인터뷰 동영상 콘텐츠를 데이터화 하는 데서부터 시작한다.