디지털 라이브러리[ 검색결과 ]
한국어 형태소 분석 및 품사 태깅을 위한 딥 러닝 기반 2단계 파이프라인 모델
http://doi.org/10.5626/JOK.2021.48.4.444
인공신경망을 활용한 최근의 한국어 형태소 분석 및 태깅 연구는 주로 표층형에 대해 형태소 분리와 품사 태깅을 먼저하고, 원형 복원 사전을 이용하여 후처리로 형태소 원형을 복원해왔다. 본 연구에서는 형태소 분석 및 품사 태깅을 두 단계로 나누어, sequence-to-sequence를 이용하여 형태소 원형을 먼저 복원하고, 최근 자연어처리의 다양한 분야에서 우수한 성능을 보이는 BERT를 이용하여 형태소 분리 및 품사 태깅을 하였다. 두 단계를 파이프라인으로 적용한 결과, 별도의 규칙이나 복합 태그 처리 등이 필요한 형태소 원형 복원 사전을 사용하지 않고도 우수한 형태소 분석 및 태깅 결과를 보였다.
부분단어와 품사 태깅 정보를 활용한 형태소 기반의 한국어 단어 벡터 생성
http://doi.org/10.5626/JOK.2020.47.4.395
단어 벡터는 단어 사이의 관계를 벡터 연산으로 가능하게 할 뿐 아니라, 상위의 신경망 프로그램의 사전학습 데이터로 많이 활용되고 있다. 영어 등의 언어와는 달리, 한국어는 어절, 형태소, 음절 및 자소 등으로 다양하게 분리할 수 있는 특성 때문에 영어 학습 모델들과는 다른 다양한 단어 벡터 학습 모델들이 연구되어 왔다. 본 연구에서는 한국어 단어 벡터를 학습하기 위한 단위로 우선 어절을 형태소로 분해하고, 이를 음절 및 자소의 부분단어로 분해하여 학습하는 방법을 제안한다. 또한 전처리된 형태소의 의미 및 구조 정보를 활용하기 위해 품사 태그 정보(Part Of Speech)를 학습에 반영하도록 한다. 성능 검증을 위해 단어 유추 평가 및 응용 프로그램 적용 평가를 해 본 결과, 맞춤법 오류가 적은 일반적인 문서에 대해, 형태소 단위로 자소 부분단어 처리를 하고 품사 태그를 추가했을 경우 다른 방법에 비해 우수함을 보였다.
확률 기반 미등록 단어 분리 및 태깅
형태소 분석시 나타나는 고유명사나 신조어 등의 미등록어에 대한 처리는 다양한 도메인의 문서 처리에 필수적이다. 이 논문에서는 3단계 확률 기반 형태소 분석에서 미등록어를 분리하고 태깅하기 위한 방법을 제시한다. 이 방법은 고유명사나 일반명사와 같은 개방어 뒤에 붙는 다양한 접미사를 분석하여 미등록 개방어를 추정할 수 있도록 했다. 이를 위해 형태소 품사 부착 말뭉치에서 자동으로 접미사 패턴을 학습하고, 확률 기반 형태소 분석에 맞도록 미등록 개방어의 분리 및 태깅 확률을 계산하는 방법을 제시하였다. 실험 결과, 제안한 방법은 새로운 미등록 용어가 많이 나오는 문서에서 미등록어 처리 성능을 크게 향상시켰다.