review/말뭉치corpus
한마루 2.0 검색기 사용을 위한 말뭉치 구축 과정
igaluk
2020. 1. 28. 11:51
①②③④⑤⑥⑦⑧⑨
1. 원시말뭉치 구축
① pdf 편집기에서 원본 파일을 .txt 파일로 변환(파일명은 영어 or 숫자만 가능)
② 해당 .txt 파일은 ANSI로 인코딩 후 저장
2. 형태소-의미 분석: 원시말뭉치에 형태소-의미 태깅하는 과정
① Utagger2011 실행>옵션설정
② UI 보이기 체크 -> 파일분석: ansi로 인코딩된 해당 원시말뭉치 지정
③ 분석대상 원시말뭉치와 같은 이름.txt 파일 생성 확인
3. 한마루 전용 말뭉치 생성기 corpus_final로 말뭉치 만들기
① 2에서 만든 태깅파일을 UTF18-LE로 인코딩
② corpus_final 실행
③ 파일선택>courpus만들기
④ ①파일과 같은 경로에 courpus 폴더 생성 확인
⑤ courpus 폴더 안에 type***** 파일 생성 확인