<현재> '비눗방울'의 분해 결과 --> '비눗' + '방울'
'비눗'은 사전에 등록된 명사가 아니지만 '방울'이 명사이므로 2+2 형태로 분해함.
<수정> '비눗'의 'ㅅ'을 제거했을 때 '비누'가 사전에 명사로 등록되어 있으면 '비누'로 출력
즉, 복합명사 자동 분해 과정에서 사이시옷을 고려하여 분해하고 분해 결과에서도 '비누'+'방울' 과 같이 출력함.
<한 가지 고려해야 할 사항> '우윳값', '전셋집'과 같은 3음절인 경우
- 기본적으로 3음절어는 복합명사 분해를 하지 않는 것을 원칙으로 하고 있음
- 그 이유는 3음절어를 분해했을 때 장점도 있지만 단점이 많기 때문임.
많은 경우에 3음절어는 그 자체를 색인 및 검색 단위로 하는 것이 좋은 경우가 많음.
- 3음절 복합어를 분해하고자 하는 요구사항은 아래 방법으로 처리하고 있음.
3음절어를 분해하려면 복합명사 분해사전(ham-cnn.dic)에 등록하여 분해함.
- 많은 3음절어들을 hdic/ham-cnn.s3 에 수록해 놓았음.
3음절어를 분해하고자 하면 ham-cnn.dic 대신에 ham-cnn.s3 를 적용하면 됨.
<3음절 복합어 관련 논점>
사이시옷 관련된 3음절어의 예
장밋빛, 기찻길, 진돗개, 수돗물, 나뭇잎, 담뱃값, 부잣집, 지렛대, 전셋집, 바닷가, 고갯길, 나룻배
이웃집, 로켓탄 --> '사이시옷'이 아닌데 혼란을 초래하는 3음절 복합어
위 3음절어들의 예에서 진돗개 -> 진도+개, 바닷가 -> 바다+가, 나룻배 -> 나루+배 와 같이 분해하는 것이 타당한지 충분히 고려할 필요가 있음.
즉, 검색의 관점에서 '진도', '바다', '나루'로 검색했을 때 '진돗개', '바닷가', '나룻배'가 검색되는 것이
좋은지 생각해 봐야 함.
그보다는 '진도개'로 검색하면 동의어로 '진돗개'를 검색해 주는 것이 검색 성능 면에서 나을 것 같음.