전세계의 데이터 양은 18개월마다 두 배라는 엄청난 속도로 증가하고 있다. 빅 데이터에 대해서는 이로 인해 야기되는 문제점과 활용 가능성이라는 두 가지 측면에서 모두 많은 논의가 진행되고 있다.
그러나 말보다 행동으로 앞서나가는 이들도 있다. 여기서 소개하는 주인공은 실존하는 여덟 곳의 빅 데이터 설비다. 더 자세한 정보는 테크아메리카 파운데이션 빅 데이터 위원회(TechAmerica Foundation Big Data Commission)의 사례 연구를 살펴보기 바란다.
미국 해양대기관리처의 국가 기상 서비스
사실 NOAA(National Oceanic and Atmospheric Administration, 해양대기관리처)는 50년동안 빅 데이터를 다뤄왔다. 현재 NOAA는 매년 30PB의 신규 데이터를 관리하고 있으며, 위성과 선박, 항공기, 부표 및 기타 센서로부터 매일 35억 건의 측정 데이터를 수집한다.
그런 다음 대기, 해양 및 지상 데이터의 직접 측정치와 복잡하고 고도의 정밀성을 갖춘 예측 모델링을 함께 사용해 NWS(National Weather Service, 국가 기상 서비스)를 제공한다. NWS 모델은 매일 수백만 가지의 데이터를 산출해서 국방성, NASA와 같은 정부기관을 포함한 공공 및 민간 분야의 예측 기관에 기상 경보와 안내 서비스를 제공한다.
AM 바이오테크놀로지 DNA 배열 분석 솔루션
미국 휴스턴에 위치한 AM 바이오테크놀로지는 압타머(aptamer)라는, 화학적으로 변화된 DNA 기반 분자 물질을 생산하기 위한 독점적인 신기술을 개발하고 있다. 압타머는 혈액 샘플 상세 분석의 진단 정량화에서부터 인체내 특정 위치로의 투약과 같은 여러 분야에 사용된다.
이런 압타머를 개발하기 위해서는 수백억 개의 짧은 DNA 배열을 분석해야 한다. AM 바이오테크놀로지는 CD-HIT와 갤럭시(Galaxy)의 웹 기반 빅 데이터 분석 도구를 사용해 데이터를 처리한다.
NARA의 전자 기록 보관소
NARA(National Archive and Records Administration, 미국 국립 기록 관리처)는 미국의 공식적인 기록 보관소로, 연방기관, 의회, 다수의 대통령 기념 도서관을 포함한 70억 개 대상에 대한 142TB의 정보를 관리한다(계속 증가 중). 디지털화된 기록은 4,800개 이상의 형태로 존재한다.
NARA는 현재 400만 입방피트를 넘는 공문서 장서들도 디지털화하는 작업을 진행하고 있다. 2016년까지 전자적으로 보관되는 정보의 95%를 연구원에게 제공할 수 있어야 한다. NARA는 여러 가지 법체계에 의해 관할되는 보관 및 기록물 관리 기능을 수행하기 위한 '시스템의 시스템'으로 전자 기록 보관소를 구축했다.
베스타스 풍력 에너지 터빈 배치 및 유지 관리
덴마크 업체 베스타스(Vestas)는 전력 발전을 최대화하면서 에너지 비용을 낮추기 위해 슈퍼컴퓨터와 빅 데이터 모델링 솔루션을 사용해 최적의 풍력 터빈 위치를 찾는다. 이 회사는 전세계 기후 시스템의 데이터와 기존 터빈에서 수집된 데이터를 취합하는 풍력 라이브러리를 사용한다.
풍력 라이브러리에는 2.8PB에 달하는 데이터가 저장되어 있다. 현재 구성 요소는 온도, 기압, 습도, 강수량, 풍향, 지상에서 최대 약 90m 높이까지의 풍속, 그리고 과거 기록 데이터 등이다. 베스타스는 여기에 전세계 산림 벌채 계측, 위성 이미지, 과거 계측, 특정 지역별 데이터, 달과 파도의 형세에 대한 데이터도 추가할 계획이다.
IRS 컴플라이언스 데이터웨어하우스
1996년 미국 국세청은 분석을 위해 1년치 소득신고서 데이터를 업로드하는 프로젝트를 개시했다. 이 프로젝트의 결과로 탄생한 것이 1PB 이상의 정보가 저장된 컴플라이언스 데이터웨어하우스다.
레거시 데이터의 대부분은 구조화되어 있지만 전자적으로 제출된 소득신고서, 국제 납세 조약 협력 국가 및 기타 기관에서 가져오는 새로운 데이터는 XML 형식이거나 반구조/비구조적 형식을 갖고 있다. IRS 연구 그룹은 세금 탈루액 추산부터 신원 도용 예측, 납세자 부담, 그리고 정책 변화가 세금 관련 행위에 미치는 영향 시뮬레이션까지 다양한 작업을 위한 데이터 분석을 수행한다.
온타리오 과학기술대학교의 의료 모니터링
UOIT(University of Ontario Institute of Technology)는 IBM과 함께 생명 징후가 위험 수준에 도달하기 전의 경고 징후을 탐지하기 위한 의료 모니터링 기술 개선을 목표로 하는 프로젝트 아르테미스(Artemis)를 발족했다.
예를 들어 미성숙한 유아의 생명을 위태롭게 하는 원내 감염 징후는 처음에는 제한치 이내지만 정상적인 변화가 일어나지 않는 맥박으로 나타난다. 아르테미스 프로젝트는 스트리밍 데이터에 대한 연속적인 분석을 통해 근실시간 의사 결정 지원을 가능하게 하는 정보처리 아키텍처인 스트림스(Streams) 분석 소프트웨어를 기반으로 한다.
테라에코스 경계지역 침입 탐지
테라에코스(TerraEchos)는 핵심 인프라스트럭처를 보호하고 모니터링하기 위한 기술을 전문으로 다룬다. 테라에코스의 고객 가운데에는 미국 에너지부 연구소도 있다. 이 기관은 테라에코스를 기반으로 과학 정보와 기술, 리소스를 보호한다.
에너지부 연구소에는 잠재적인 위협(기계 및 생물 위협)을 탐지, 분류, 파악, 추적할 수 있는 기술 솔루션이 필요하다. 말하자면 휘파람 소리와 먼 곳에서 부는 바람 소리를 구분해야 한다. 이를 위해 솔루션은 센서, 분석 소프트웨어, 고성능 컴퓨팅을 사용해 사람과 동물의 움직임에서 대기 상황에 이르는 방대한 분량의 움직이는 정보를 지속적으로 받아들여 분석한다.
NASA 우주 비행 영상 컬렉션, 보관 및 호스팅
NASA의 존슨 우주 센터는 미국 항공우주의 허브이자 국제 우주 정거장 임무 수행의 중심이다. 이 우주 센터는 1959년부터 지금까지 400만 장 이상의 스틸 사진, 2,900km 길이의 16mm 필름, 8만 5,000개의 비디오 테이프와 8만 1,616시간 분량의 비디오 파일로 구성된 아날로그 및 디지털 데이터를 수집했다.
이 데이터들은 미디어 콘텐츠용으로도 사용되고 과학 및 공학 커뮤니티에 제공되기도 한다. NASA는 이미지 파일 이름과 이 이름에 연계된 모든 메타데이터를 연결하는 이미저리 온라인(Imagery Online)이라는 애플리케이션을 만들었다. 그러나 아직도 존슨 우주 센터는 이 컬렉션을 원본 형식 그대로 일반에 공개하는 한편 작고 접근이 용이한 미디어 형식으로도 트랜스코딩해야 하는 어려운 작업에 직면해 있다.
http://www.itworld.co.kr/slideshow/78853/%EC%8B%A4%EC%A1%B4%ED%95%98%EB%8A%94+%EB%B9%85+%EB%8D%B0%EC%9D%B4%ED%84%B0+%EC%84%A4%EB%B9%84+%EB%B2%A0%EC%8A%A4%ED%8A%B8+8+?slide=8#slideshow_anchor