review/말뭉치corpus

한마루 2.0 검색기 사용을 위한 말뭉치 구축 과정

igaluk 2020. 1. 28. 11:51

①②③④⑤⑥⑦⑧⑨

 

1. 원시말뭉치 구축

 ① pdf 편집기에서 원본 파일을 .txt 파일로 변환(파일명은 영어 or 숫자만 가능) 

 ② 해당 .txt 파일은 ANSI로 인코딩 후 저장

 

2. 형태소-의미 분석: 원시말뭉치에 형태소-의미 태깅하는 과정

Utagger2011 실행>옵션설정

 ② UI 보이기 체크 -> 파일분석: ansi로 인코딩된 해당 원시말뭉치 지정

 ③ 분석대상 원시말뭉치와 같은 이름.txt 파일 생성 확인

 

3. 한마루 전용 말뭉치 생성기 corpus_final로 말뭉치 만들기

① 2에서 만든 태깅파일을 UTF18-LE로 인코딩

 corpus_final 실행

③ 파일선택>courpus만들기

①파일과 같은 경로에 courpus 폴더 생성 확인

courpus 폴더 안에 type***** 파일 생성 확인