디지털 라이브러리[ 검색결과 ]
대용량 텍스트 자원을 활용한 한국어 형태소 임베딩의 모델별 성능 비교 분석
http://doi.org/10.5626/JOK.2019.46.5.413
단어 임베딩은 컴퓨터가 자연어를 인식할 수 있도록 하는 변환 기법으로 기계번역, 개체명 인식 등 기계학습을 바탕으로 하는 자연어 처리 분야에서 다양하게 사용되고 있다. 단어 임베딩을 생성하는 다양한 단어 임베딩 모델들이 존재하지만 이러한 모델들을 동일한 조건에서 성능을 비교 분석한 연구가 미비하다. 본 논문에서는 한국어 형태소 단위 띄어쓰기를 기반으로 하여 활발하게 사용되고 있는 모델인 Word2Vec의 Skip-Gram과 CBOW, GloVe, FastText의 성능을 비교 분석한다. 뉴스 대용량 말뭉치 및 세종 말뭉치를 바탕으로 실험한 결과 FastText가 가장 높은 성능을 확인할 수 있었다.
Bidirectional LSTM-CRF 기반의 음절 단위 한국어 품사 태깅 및 띄어쓰기 통합 모델 연구
http://doi.org/10.5626/JOK.2018.45.8.792
일반적으로 한국어 품사 태깅은 단어 단위로 띄어쓰기가 완료된 문장을 입력으로 받는다. 만일 띄어쓰기가 제대로 되지 않은 문장을 처리하기 위해서는 오류를 수정하기 위한 자동 띄어쓰기 처리가 선행되어야 한다. 그러나 자동 띄어쓰기 처리와 품사 태깅을 순차적으로 수행하면 각 단계에서 발생하는 오류로 인해 심각한 성능 저하 현상이 발생할 수 있다. 본 연구에서는 자동 띄어쓰기와 품사 태깅을 동시에 수행할 수 있는 통합 모델을 구축하여 이러한 문제를 해결하고자 한다. 세부적으로 Bidirectional LSTM-CRF 모델을 바탕으로 음절 기반의 띄어쓰기 및 품사 태깅을 상보적으로 동시에 수행할 수 있는 통합 모델을 제안한다. 한국어 문어 품사 부착 말뭉치를 이용한 실험 결과, 띄어쓰기가 완전한 문장에 대해서는 98.77%의 품사 태깅 성능을 보였으며, 띄어쓰기가 전혀 되어 있지 않은 문장 집합에 대해서는 97.92%의 형태소 단위 F1-measure 성능을 나타내었다.