sorting 및 단어 빈도 계산 프로그램 실행파일 -- 윈도 cmd창에서 실행
<주의> 아래 wordcount.exe 는 DOS창(cmd 프롬프트)에서 실행해야 함. (2018년 version)
메모리 부족으로 처리를 못하는 경우에 파일을 2개 이상으로 분할하여 각각 빈도계산을 하여 누적시킴!
- 윈도 64비트용 -- 5천만개 이상인 경우에 메모리 부족 문제가 발생할 수 있음!
version 3.1.2 웬만큼 소팅이 되어 있는 입력의 비효율적인 문제 개선 -- 2018/08/10
wordcount.exe
--> version 3.1.2 사용에 문제가 있으면 아래 버전 사용!
- 윈도 32비트용 -- 5천만개 이상인 경우에 메모리 부족 문제가 발생할 수 있음!
version 2.0 ("-new" 옵션일 때 축적된 데이터를 자동으로 삭제) -- 2016/12/23
wordcount-w32.exe --> 첫문자가 따옴표인 경우에 무시하는 오류가 있음!
<<메모리 부족 에러 발생할 때>> split.exe으로 파일 분할(linux의 split와 유사)
split.exe
Example: 매우 큰 파일 input.txt (수천만 라인)에 대한 word count 방법
C> split.exe -4m input.txt --> xaa, xab, xac, ... 등으로 분할
// input.txt를 4백만 라인씩 여러 개의 파일로 분할 C> wordcount.exe -i xaa
// 첫번째 파일 xaa에 대한 wordcount : "-i" 옵션 사용
C> wordcount.exe -i -add xab
C> wordcount.exe -i -add xac
// 나머지 파일 xab, xac, ... 를 "-add" 옵션에 의해 누적시킴 (아래 화면의 사용법 참조)
<참고> wordcount.exe 사용법 - cmd창에서