디지털 라이브러리[ 검색결과 ]
BERT를 이용한 한국어 의미역 결정
http://doi.org/10.5626/JOK.2020.47.11.1021
의미역 결정은 문장 내에서 “누가, 무엇을, 어떻게, 왜” 등의 관계를 찾아내는 자연어처리의 한 응용이다. 최근 의미역 결정 연구는 주로 기계학습을 이용하고 자질 정보를 배제한 종단 대 종단(end-to-end) 방식의 연구가 이루어지고 있다. 최근 BERT(Bidirectional Encoder Representations from Transformers)라는 언어 모델이 자연어처리 분야에 등장하여 기존 자연어처리 분야의 최고 성능 모델들 보다 더 좋은 성능을 보이고 있다. 종단 대 종단 방식을 이용한 의미역 결정 연구의 성능은 주로 기계학습 모델의 구조나 사전에 학습된 언어 모델의 영향을 받는다. 따라서 본 논문에서는 한국어 의미역 결정성능 향상을 위해 BERT를 한국어 의미역 결정에 적용한다. 실험 결과 BERT를 이용한 한국어 의미역 결정 모델의 성능이 85.77%로 기존 한국어 의미역 결정 모델들 보다 좋은 성능을 보였다.
Stacked Bidirectional LSTM-CRFs를 이용한 한국어 의미역 결정
의미역 결정 연구에 있어 구문 분석 정보는 술어-논항 사이의 의존 관계를 포함하고 있기 때문에 의미역 결정 성능 향상에 큰 도움이 된다. 그러나 의미역 결정 이전에 구문 분석을 수행해야 하는 비용(overhead)이 발생하게 되고, 구문 분석 단계에서 발생하는 오류를 그대로 답습하는 단점이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 구문 분석 정보를 제외한 형태소 분석 정보만을 사용하는 End-to-end SRL 방식의 한국어 의미역 결정 시스템을 제안하고, 순차 데이터 모델링에 적합한 LSTM RNN을 확장한 Stacked Bidirectional LSTM-CRFs 모델을 적용해 구문 분석 정보 없이 기존 연구보다 더 높은 성능을 얻을 수 있음을 보인다.
격틀 사전과 하위 범주 정보를 이용한 한국어 의미역 결정
기계가 사람과 같이 문장을 처리하게 하려면 사람이 쓴 문장을 토대로 사람이 문장을 통해 발현하는 모든 문장의 표현 양상을 학습해 사람처럼 분석하고 처리할 수 있어야 한다. 이를 위해 기본적으로 처리되어야 할 부분은 언어학적인 정보처리이다. 언어학에서 통사론적으로 문장을 분석할 때 필요한 것이 문장을 성분별로 나눌 수 있고, 문장의 핵심인 용언을 중심으로 필수 논항을 찾아 해당 논항이 용언과 어떤 의미역 관계를 맺고 있는지를 파악할 수 있어야 한다. 본 연구에서는 국립국어원 표준국어대사전을 기반으로 구축한 격틀사전과 한국어 어휘 의미망에서 용언의 하위 범주를 자질로 구축한 CRF 모델을 적용하여 의미역을 결정하는 방법을 사용하였다. 문장의 어절, 용언, 격틀사전, 단어의 상위어 정보를 자질로 구축한 CRF 모델을 기반으로 하여 의미역을 자동으로 태깅하는 실험을 한 결과 정확률이 83.13%로 기존의 규칙 기반 방법을 사용한 의미역 태깅 결과의 정확률 81.2%보다 높은 성능을 보였다.
Structural SVM 기반의 한국어 의미역 결정
의미역 결정은 자연어 문장의 서술어와 그 서술어에 속하는 논항들 사이의 의미관계를 결정하는 문제이다. 일반적으로 의미역 결정을 위해서는 서술어 인식(Predicate Identification, PI), 서술어 분류(Predicate Classification, PC), 논항 인식(Argument Identification, AI) 논항 분류(Argument Classification, AC) 단계가 수행된다. 본 논문에서는 한국어 의미역 결정 문제를 위해 Korean Propbank를 의미역 결정 학습 말뭉치로 사용하고, 의미역 결정 문제를 Sequence Labeling 문제로 바꾸어 이 문제에서 좋은 성능을 보이는 Structural SVM을 이용하였다. 실험결과 서술어 인식/분류(Predicate Identification and Classification, PIC)에서는 97.13%(F1)의 성능을 보였고, 논항 인식/분류(Argument Identification and Classification, AIC)에서는 76.96%(F1)의 성능을 보였다.