검색 엔진은 원래 정보를 수집하고 찾아주는 컴퓨터 시스템을 말한다. 하지만 지금은 주로 월드 와이드 웹을 대상으로 하는 인터넷 검색 서비스의 뜻으로 쓰인다. 그러한 의미로 보면 포털 사이트도 이와 뜻이 비슷하다고 할 수 있다.
검색 엔진은 크게 나누어서 자동화된 로봇 프로그램이 웹 페이지 문서를 수집해오는 웹 페이지 검색 엔진과 사람들이 주제별로 웹사이트 주소록을 정리하는 디렉터리 검색 엔진으로 나눌 수 있다. 대부분의 검색 엔진 서비스들은 이 두 가지를 모두 운영하고 있으며 최근에는 야후처럼 이 둘을 통합하여 보여 주는 방향으로 진행하고 있다.
검색 엔진 솔루션
검색 엔진은 위와 같이 주로 서비스를 의미하지만, 검색 서비스를 만들기 위한 시스템(솔루션)을 가리키기도 한다. 검색 엔진 솔루션은 웹을 대상으로 웹 검색 솔루션과 회사/조직 내부의 데이터베이스나 파일 시스템의 문서를 검색하는 내부 검색 솔루션으로 나눌 수 있다.
검색 엔진 서비스의 역사
폐쇄적으로 운영되는 기업 내부의 정보를 검색하여 주는 내부 검색 솔루션은 기업 내의 정보 양이 큰 폭으로 증가하고 있지 않지만, 웹 검색 솔루션은 공개적으로 운영되는 특성 때문에 해마다 취급하는 정보의 양이 기하급수적으로 늘어나게 됨에 따라 시장과 사용자의 요구에 따라 계속 변해왔다.
- 1세대 검색 엔진, 디렉터리 검색 엔진: 전 세계 인터넷 페이지가 수천만 페이지에 불과했던 초기에는 사람이 좋은 사이트를 선별하여 정리해 놓은 야후의 디렉터리 검색 엔진이 주류였다.
- 2세대 검색 엔진, 1세대 로봇 검색 엔진: 인터넷 페이지가 억 단위로 증가하자 더 이상 사람이 사이트를 선별하는 것이 무의미해졌고, 사용자들은 디렉터리 검색 엔진이 찾아 주지 못하는 더 많은 정보를 검색하고자 하는 욕구가 생겼다. 이에 따라, 웹봇(webbot) 또는 에이전트(agent)를 이용한 로봇 검색 엔진이 등장하게 되었으며, W3C 의 세계로봇규약을 표준 규약에 따라 알타비스타, 핫봇, 익사이트와 같은 검색 엔진이 서비스 되었으나 잘 정리되지 못한 결과를 보여 주는 1세대 로봇 검색 엔진은 사용자의 호응을 얻지 못하였다.
- 2.5세대 검색 엔진, 디렉터리와 로봇의 응용 검색 엔진: 로봇검색 엔진은 많은 정보를 찾아 주기는 하였지만, 1세대 검색 엔진인 야후와 같이 엄선되고 정리된 느낌의 검색결과를 보여주기에는 역부족이이었다. 또한, 로봇검색 엔진의 검색로직이 모두 다르다 보니 특정 검색어에 따라 특정 검색 엔진의 결과가 좋을 수 있었다. 이러한 이유로 메타 검색 엔진이 등장하였는데, 메타 검색 엔진은 자체적으로 정보를 보유하고 있지는 않으면서, 다른 검색 엔진 서비스 회사들의 검색결과를 실시간으로 가져와 정리해서 보여주는 방식이다. 대한민국에도 미스다찾니와 같은 메타 검색 엔진이 있었지만 지금은 사라졌으며, 대한민국 밖에서는 마이서치, 독파일 등이 서비스 되고 있다. 또한, 대한민국에서는 이 2.5세대 검색 엔진 중 디렉터리 검색 엔진의 장점과 로봇 검색 엔진의 장점을 잘 혼합한 형태의 서비스가 등장하여 지금까지 주류를 이루고 있는데, 네이버, 다음, 엠파스, 파란 등이 그 대표적인 예이다.
- 3세대 검색 엔진, 2세대 로봇 검색 엔진: 알타비스타와 같은 1세대 로봇 검색 엔진은 여전히 매우 많은 양의 검색결과를 가져오지만, 검색결과 첫 페이지에서 클릭하고 싶은 정보가 노출되기 쉽지 않은 구조를 가지고 있다. 그러한 이유로, 알타비스타는 세계최초의 글로벌 로봇 검색 엔진이었음에도 시장을 거의 점유하지 못하였다. 하지만. 2세대 로봇 검색 엔진으로 구글이 등장하게 되는데, 이 구글은 페이지랭크(Page Rank)를 통해, 첫 페이지에 클릭하고 싶은 정보가 노출되게 하는 로직을 적용하였다. 이러한 검색 엔진 방식은 2008년 현재 전 세계적으로 가장 앞서 있는 기술로 평가되고 있으며, 한국, 일본 등 아시아 몇 개 나라를 제외하고는 북미, 유럽 등 전 세계에서 적어도 50% 이상의 점유율을 확보하고 있다.
- 4세대 검색 엔진, 3세대 로봇 검색 엔진: 2008년 현재 4세대 검색 엔진은 흔히 차세대 검색 엔진이라고 불린다. 그 이유는 기존의 검색 엔진 서비스의 변화에서 가장 큰 변화를 가져올 것이 예상되기 때문이다. 1세대 검색 엔진부터 3세대 검색 엔진까지 약 20년 동안 모든 검색 엔진은 좋은 정보를 찾아내기 위한 방법으로 사용자가 입력한 검색어와 동일한 단어가 들어가 있는 페이지를 찾는 즉 키워드 검색 엔진에 기반을 두어 왔다. 하지만, 4세대 검색 엔진은 키워드 기반이 아닌 의미 기반의 검색 방법을 사용한다. 대표적으로 하키아와 큐로보는 시맨틱랭크를 사용한다. 이 4세대 검색 엔진 서비스는 기존 검색 엔진의 요구와 달리 사용자 인터페이스면에서도 다른 시도가 있어 왔다. 대표적으로 마이크로소프트사의 윈도 비스타에 내장된 사용자 시각 인터페이스를 적용한, 서치미와 레드지등이 있으며, 한국에는 비주얼큐로보가 있다.
검색 엔진의 검색 과정
검색의 과정은 크롤러(crawler)와 함께 시작된다. 크롤러는 웹상에서 링크 사이를 오가는 정보수집 전용 프로그램으로, 찾은 페이지를 전부 가져온 다음에 인덱스(색인) 처리되도록 서버에 보낸다. 크롤러는 웹페이지를 긁어모은 다음에 자동 색인 프로그램인 인덱서(indexer)로 넘기고 손을 뗀다. 인덱스는 데이터가 처리되어 일반 검색자가 소화할 수 있는 형태로 되었는지 여부에 따라 여러 개의 조각으로 나뉜다. 똑똑한 인덱스를 창조하는 다음 단계가 데이터베이스를 역전환(invert)하는 것, 즉 본질적으로 URL과 관련된 단어 목록을 만드는 것이다. 따라서 '외몽고'라는 단어를 검색창에 입력한다면 검색 엔진은 이 단어를 포함한 모든 URL의 목록을 즉시 끄집어낼 수 있게 된다. 일단 크롤 데이터가 분석되고 인덱스된 후 태그가 붙여지면 사용자에게 결과를 제공할 준비가 되어 있는 데이터베이스인 런타임 인덱스(runtime index)라고 불리는 것으로 보내진다. 런타임 인덱스는 검색 엔진의 배후 끝부분(크롤 및 인덱스)과 맨 앞부분(쿼리 서버와 사용자 인터페이스) 사이를 연결하는 교각 역할을 한다.
검색엔진의 상업화
검색엔진의 상업성 추구는 컨텐츠를 전면에 내세우는 이른바 포털화로 진행된 사례가 많다. 네이버의 경우 검색기능이 포털화, 상업화의 결과물로 표출되고 있다. 다음(daum.net)은 이메일 서비스의 수요자를 기반으로 포털화에 성공하기 위해 야후의 검색결과를 이용했다.
출처 : 위키백과