데이터 - 빅데이터 기술
영원한 인간사랑 ・ 2023. 11. 14. 7:31
URL 복사 통계
본문 기타 기능
빅데이터 - 빅데이터 기술
인기멤버
2023.11.11. 12:24조회 5
댓글 0URL 복사
빅데이터
빅데이터 기술
구글은 빅데이터를 효과적으로 처리하기 위한 전략으로 컴퓨터 장비는 가능한 한 값싼 것을 사용하고 그 성능을 최대한 끌어 낼 수 있는 소프트웨어는 자신들이 직접 개발하는 전략을 선택했다. 이 과정에서 빅데이터 처리 기술인 분산파일 시스템과 맵리듀스가 새롭게 개발되었다.
1. 구글의 빅데이터 처리 기술
웹 환경은 기존의 전통 방식으로는 효과적으로 처리하기 어려운 대규모 데이터가 존재하는 대표적인 곳이다. 웹에서 검색이란 규격이 일정하지 않은 여러 종류의 데이터가 대규모로 쌓여 있는 데이터 더미에서 원하는 내용을 효과적으로 빠른 시간 안에 찾는 것이 필수적이다. 웹 검색엔진 개발자들은 이러한 문제를 해결하기 위해 다양한 시도를 했다.
구글(Google)은 대규모 데이터를 효과적으로 처리하기 위한 전략으로 컴퓨터 장비(hardware)는 가능한 한 값싼 것을 사용하고 그 성능을 최대한 끌어 낼 수 있는 소프트웨어(software)는 자신들이 직접 개발하는 전략을 선택했다(니시다 케이스케, 2009). 컴퓨터 성능을 향상시키기 위해서는 성능이 더 좋은 장비를 도입하는 스케일 업(scale-up) 방식과 장비의 수를 늘리는 스케일 아웃(scale-out) 방식이 있는데 구글은 후자를 택했다.
구글의 검색엔진 기술은 대량의 정보를 효과적으로 저장하기 위한 분산파일 시스템(GFS, Google File System), 대용량 데이터의 읽기와 쓰기를 위한 분산 스토리지 시스템인 빅테이블(Bigtable), 분산 데이터 처리를 위한 맵리듀스(MapReduce)로 요약할 수 있다.
분산파일 시스템(GFS)은 여러 대의 컴퓨터를 조합해 대규모 기억장치(storage)를 만드는 기술이다. 웹 검색엔진의 경우 전 세계에 존재하는 엄청난 규모의 웹 페이지를 저장해야 한다. 인터넷 상 데이터는 그 증가 속도가 매우 빠르기 때문에 대규모 데이터를 안전하게 저장하고 효율적으로 처리하기 위해서는 다수의 하드디스크를 조합해 데이터를 저장하는 새로운 기술이 필요하다(니시다 케이스케, 2009). 분산파일 시스템은 이를 위해 개발된 구글의 독자적인 기술이다.