빅데이터란?
빅 데이터란 기존 데이터베이스 관련도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아는 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다.
다양한 종류의 대규모 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로 하는 빅 데이터의 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하는 효율적으로 작동케 하고 개인화된 현대 사회 구성원 마다 맞춤형 정보를 제공, 관리, 분석 가능케 하며 과거에는 불가능했던 기술을 실현시키기도 한다
이와 같이 빅 빅데이터는 정치, 사회, 경제, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치 있는 정보를 제공할 수 있는 기능성을 제시하며 그 중요성을 부각하고 있다.
빅데이터의 주요 요소로는 데이터, 수집,처리, 저장기술, 데이터 분석 및 지식추출 기술, 인재나 조직이 있다. 비정형 데이터나 정형 데이터를 효율저긍로 수집하고 처리하여 분석 가능한 형태로 전환시키고 데이터를 분석하여 가치있는 정보, 또는 지식을 데이터 과학자등 빅에티어에서 의미있는 정보를 도출하여 이를 전략적으로 활용할 수 있는 인재나 조직이 필요하다.
빅데이터의 출현 배경에는 기업의 고객 데이터의 수집 행위가 증가하고 멀티미디어 콘텐츠 사용의 관한 정보가 증가, 트위터나 페이스북 등 소셜 네티어워크(SNS)의 극격한 확산과 비정형 에티어의 폭증 M2M(Machine To Machine)확산에 따라 센서 데이터 증대, 저장매체의 가격 하락이 원인이다.
정의
빅데이터는 통상적으로 사용되는 데이터 수집 관리 및 처리 소프트웨어의 수용 한계를 넘어서는 크기의 데이터를 말한다. 빅데이터의 사이즈는 단일 데이터 집합의 크기가 수집 테라바이트에서 수 페타바이트에 이르며, 그 크기가 끊임없이 변화하는 틍징이 있다.
특징과 의미
빅데이터의 공통적 특징을 설명할수 있다. 속도는 대용량의 데이터를 빠르게 처리하고 분석할 수 잇는 속성이다. 융복합 환경에서 디지털 데이터는 매우 빠른 속도로 생산되므로 이를 실시간으로 저장, 유통, 수집 분석처리가 가능한 성능을 의미한다.
데이터의 양(Volume),
축적되는 데이터의 크기가 수직확장의 물리적 한계를 초과할 정도로 거대 하고 해마다 디지털 정보량이 기하급수적으로 증가하여 기가(Giga)~페타(Peta) 그리고 제타(zetta)바이트등 새로운 단위로 빠르게 증하하는 추세이다
데이터의 생성 속도(Velocity)
사물정보나 스트리밍 정보등 실시간 정보 증가로 인한 데이터 이동 속도가 증가하여 가치 있는 실시간 대규모 데이터 처리 활용을 이해 데이터의 처리 및 분석 속도라 빨라질 필요
형태의 다양성(Variety)
빅데이터는 로그기록, 소셜 위치, 소비, 현실데이터 등 분석 대상의 데이터의 종류가 다양하다.
기존에는 데이터 베이스나 데이터 웨어하우스 등 정제되어 있는 저장되어 있는 정형 데이터 분석
가치(Value)
빅데이터가 조직에 제공하는 가치는 데이터의 정확성과 시간성이 관련이 있다.
정확성(Veracity) : 빅데이터 시대에는 방대한 양을 분석하여 일정한 패턴을 추출할수 있다. 하지만 정보의 양이 많아지는 만큼 데이터의 신뢰성이 떨어지기 쉽다. 따라서 빅데이터를 분석하는데 있어 기업이나 기관에 수집한 데이터가 정확한 것인지 분석할 만한 가치가 있는지 살펴야 하는 필요성이 있고 이러한 측면에서 새로운 속성인 정확성이 제시되고 있다.
과거에도 대규모 데이터를 분석해서 의미 있는 정보를 찾아내는 시도는 예전에도 존재 했다. 그러나 현재의 빅데이터환경은 과거와 비교해 데이터의 양은 물론 질과 다양성 측면에서 패러다임의 전환을 의미한다.
이런 관점에서 빅데이터는 산업혁명 시기의 석탄처럼 또는 매장되어 있는 원유 처럼 미래의 경제 자원이며 데이터는 화폐나 금처럼 새로운 자산이 될것이다. IT와 스마트혁명 시기에 혁신과 경쟁력 강화, 생산성 향상을 우한 중요한 원천으로 간주되고 있다.
전통적인 데이터 분석과 빅데이터의 분석의 차이에는 분석대상의 원천 데이터의 확장, 데이터의 다양화, 데이터의 대규모화 이며
분석 과정에는
데이터
분석을 가용한 데이터로 확인하는 단계
내부 데이터 - 해당 조직이 자체적으로 보유한 데이터
외부 데이터 - 인터넷등으로 연결되어 존재하는 비정형 데이터
수집
조직 내 외부의 필요한 데이터들로부터 자동 수동으로 수집하는 단계
저장
정형, 비정형 데이터를 저장 관리 분석 활용하는 단계
처리
다양한 데이터의 양,생성,속도를 통합적으로 다루는 기술
일괄처리 - 쌓인 데이터를 여러번 서버로 분산 처리하고 결과를 다시 모아 분산 병렬 기술 방식
실시간 처리 - 데이터가 들어오는 대로 일련의 처리 업무를 수행 그 결과를 연속적 제공
분석
사실, 추세, 관계 패턴 등 알려지지 않은 정보, 지식을 찾아내는 과정
통계분석(Statistical Analysis), 데이터마이닝(Data Mining), 텍스트 마이닝(Text mining), 소셜 네트워크 분석(Social Network Analysis)
표현
데이터 분석 결과를 쉽게 이해할 수 있도록 시각적인 정보를 전달하는 과정
정보 편집기술 - 시각적 매핑, 스토리텔링 등
빅데이터는 정형 및 비정형 데이터를 수집하여 복잡한 분석을 실행한 뒤 용도에 맞게 정보를 가공하는 과정을 거친다. 이때 정보의 사용대상자가 이해하지 못한다면 정보의 가공을 위해 소모된 시간적, 경제적 비용이 무용지물이 될수 있다.
정보 시각화 기술 - 시간, 분포, 관계, 비교, 공간, 인포그래픽 등 이 있다