디지털 라이브러리[ 검색결과 ]
Bidirectional LSTM-CRF 기반의 음절 단위 한국어 품사 태깅 및 띄어쓰기 통합 모델 연구
http://doi.org/10.5626/JOK.2018.45.8.792
일반적으로 한국어 품사 태깅은 단어 단위로 띄어쓰기가 완료된 문장을 입력으로 받는다. 만일 띄어쓰기가 제대로 되지 않은 문장을 처리하기 위해서는 오류를 수정하기 위한 자동 띄어쓰기 처리가 선행되어야 한다. 그러나 자동 띄어쓰기 처리와 품사 태깅을 순차적으로 수행하면 각 단계에서 발생하는 오류로 인해 심각한 성능 저하 현상이 발생할 수 있다. 본 연구에서는 자동 띄어쓰기와 품사 태깅을 동시에 수행할 수 있는 통합 모델을 구축하여 이러한 문제를 해결하고자 한다. 세부적으로 Bidirectional LSTM-CRF 모델을 바탕으로 음절 기반의 띄어쓰기 및 품사 태깅을 상보적으로 동시에 수행할 수 있는 통합 모델을 제안한다. 한국어 문어 품사 부착 말뭉치를 이용한 실험 결과, 띄어쓰기가 완전한 문장에 대해서는 98.77%의 품사 태깅 성능을 보였으며, 띄어쓰기가 전혀 되어 있지 않은 문장 집합에 대해서는 97.92%의 형태소 단위 F1-measure 성능을 나타내었다.
말뭉치와 형태소 분석기를 활용한 한국어 자동 띄어쓰기
본 논문에서는 띄어쓰기가 전혀 되어 있지 않은 문자열을 입력 받아 말뭉치에서 추출한 어절정보를 이용하여 자동 띄어쓰기를 해 주는 방법론을 제안한다. 형태소 분석기도 사용되나 오류 수정이라는 제한적인 용도로만 사용된다. 성능 평가를 위해 1,000만 어절 규모의 세종 말뭉치에서 순수 한글 585만 어절을 발췌하여 10 개의 세트로 나누고 10 배수 교차 검증을 실시한 결과 98.06%의 음절 정확도와 94.15%의 어절 재현율을 얻었다. 또한, 개인용 컴퓨터에서 초당 25만 어절, 1.8 MB의 문서를 처리할 수 있을 정도로 빠르다. 제안된 방법의 정확도나 재현율은 어절 사전의 크기에 영향을 받기 때문에 보다 큰 말뭉치로 어절 사전을 구축하면 성능이 더욱 향상될 것으로 기대된다.