검색엔진 용어
부울 연산자(Boolean Operator) - 검색 단어들의 논리관계를 따지는 연산자입니다. 즉 AND, OR ,NOT
AND - '가 AND 나' : 가와 나 둘다 모두 포함하고 있는 문서를 찾아라
OR - '가 OR 나' : 가와 나 중 하나라도 들어있으면 찾아라
NOT - '가 NOT 나' : 가가 들어있는 문서를 찾고 그중에서 나가 들어있는 문서는 제외시켜라
위와 같이 부울연산자는 우리가 알게모르게 가장 많이 사용하고 있는 연산자 입니다. 또 거의 모든 검색사이트에서 지원되고 있습니다.
우선 연산자(Precedence) - 여러 연산자를 이용했을 때 검색의 우선순위를 따지는 연산자 입니다. 검색엔진에 따라 조금의 차이는 있지만 보통
1. 괄호( )
2. AND NOT OR 순으로
3. 왼쪽에서 오른쪽으로
즉 '우정 AND (인간 OR 대한민국)' 이면 인간이나 대한민국이 포함된 문서를 먼저 찾은 다음 그중에서 우정이 포함된 문서를 다시 간추리게 되는 것입니다.
인접 연산자(Proximity Operator) - 단어들이 위치한 순서나 거리를 참조하는 연산자 입니다.
어구 검색(Phrase Searching) - 두개 이상의 단어를 하나의 단어로 취급하여 검색하는 연산자 입니다. 보통 아래와 같이 큰따옴표를 많이 사용합니다.
"컴퓨터 발표회" 고 하면 컴퓨터 발표회를 하나의 단어로 인식해 검색을 하게됩니다.
대문자(Case Sensitive) - 알타비스타, 한미르등 몇몇 검색엔진들은 영어 대문자를 구별하는데 이를 대문자 연산자라 합니다. 즉 'Love' 와 'love' 를 다르게 인식하는 것이죠
절단(Truncation), 와일드카드 - 뒤나 앞에 오는 모든 문자를 포함한다는 뜻의 도스의 와일드카드와 같은 의미 입니다. 보통 '*' 나 '%' 가 사용됩니다.
즉 '사랑*' 이라고 하면 '사랑한다', '사랑이란' 등 사랑을 포함한 모든 문서를 검색하는 것입니다.
불용어(Stop Word) - 검색엔진이 문서검색시 무시해버리는 문자열을 의미 합니다.
한글의 경우 조사, 접속사, 어미 등이 불용어에 속하며 영어는 a, an, the, that, this, in, on by, if, are, as, but, for, with, you, may 와 같은 동사, 조동사, 전치사, 대명사등이 불용어로 처리 됩니다.
시소러스(Thesaurus) - 검색단어들의 계층적 관계 및 종속성등을 인식해 모두 나타내 주는것을 뜻합니다. 우리나라에서는 대표적으로 심마니가 이 시소러스를 지원하는 검색엔진 입니다. 다른말로 유의어사전 이라고도 합니다.
즉 '사랑' 이라고 하면 '애정', '사모', '총애', 'love' 모두를 검색하는 것입니다.
Garbage - 검색된 문서중에서 필요없는 문서를 뜻하는 용어입니다.
Leakage - 검색되어야 함에도 불구하고 찾지못한 정보를 뜻하는 용어입니다.
검색엔진 종류
주제별 검색엔진 - 특정 주제별로 각 사이트를 디렉토리로 분류하여 정리해 놓은 검색엔진을 뜻하며 대표적인 엔진은 야후, 심마니, 라이코스를 들수 있습니다.
주제별 검색엔진의 장점으로는 찾는 정보에 대하여 아무런 지식이 없더라도 해당 디렉토리로 들어가서 정보를 찾을 수 있다
단어별 검색엔진 - 통합된 하나의 데이타베이스에 모든 홈페지의 정보를 저장하는 방식의 검색엔진을 뜻하며 대표적인 엔진은 알타포탈, 갤럭시등을 들 수 있습니다.
단어별 검색엔진의 장점으로는 간단한 키워드만을 입력하고서도 신속하게 정보를 찾을 수 있습니다.
메타(META) 검색엔진 - 자체적인 데이타베이스를 구축하지 않고 타 검색엔진에 질의를 의뢰하여 그 결과를 보여주는 검색엔진 으로서 대표적인 엔진은 미스다찾니, 메타크롤러등이 있습니다.
메타검색엔진의 장점은 여러 검색엔진을 방문하지 않고서도 많은 결과를 한꺼번에 얻을 수 있습니다.
※ 요즘은 모든 검색엔진들이 키워드와 주제별 디렉토리 서비스를 모두 지원하기 때문에 주제별과 단어별 검색엔진의 차이가 좁아지고 있는 추세입니다.
첫댓글 공부잘했습니다.