갖고 있는 코퍼스 메모장 파일을 활용하여 워드스미스로 워드리스트를 작성하였습니다.
하지만 분석된 단어들 중 아래 그림처럼 깨져서 나오는 단어들이 있습니다.
이 처럼 깨져서 나오고 이와 같은 단어들을 concord 기능을 사용하여 어떤 문장에서 깨지는지 compute 해보아도 예시가 안 나오고, 가끔 나오는 경우는 아래 그림과 같이 나옵니다.
하지만, 막상 원문 텍스트에 들어가 확인해 보면 깨진 글자는 없고 영어로 잘 입력 되어 있습니다.
이 문제를 해결하려면 어떻게 하면 될까요?? 답변 주시면 연구하는 데에 큰 도움이 될 것 같습니다. 고견 부탁드리겠습니다.
감사합니다.
첫댓글 일단 아래 그림 처럼 코퍼스를 다른 이름으로 저장하면서 형식을 기존 ANSI 형식을 UTF-8으로 바꿔 저장해 보세요. 또 Tag가 없는지도 확인 바랍니다