디지털 라이브러리[ 검색결과 ]
형태소 수준의 BERT 임베딩을 통한 한국어 상호참조해결
http://doi.org/10.5626/JOK.2023.50.6.495
상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 한국어 상호참조해결은 End-to-End 방식으로 주로 연구가 되고 있으며, 이를 위해 모든 스팬을 잠재적인 멘션으로 간주해야 되기 때문에 메모리 사용량과 시간 복잡도가 상승하는 문제가 있다. 본 논문에서는 서브 토큰을 다시 단어단위로 매핑하여 상호참조해결을 수행하는 워드 레벨 상호참조해결 모델을 한국어에 적용하였으며, 한국어 특성을 반영하기 위해 워드 레벨 상호참조해결 모델의 토큰 표현을 CorefBERT를 통해 계산한 후 개체명 자질과 의존 구문 분석 자질을 추가하였다. 실험 결과, ETRI 질의응답 도메인 평가 셋에서 F1 70.68%로, 기존 End-to-End 방식의 상호참조해결 모델 대비 1.67% 성능 향상을 보이면서 메모리 사용량은 2.4배 좋아졌고, 속도는 1.82배 빨라졌다.
긴 문서를 위한 BERT 기반의 End-to-End 한국어 상호참조해결
http://doi.org/10.5626/JOK.2023.50.1.32
상호참조해결은 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델이 주로 연구되었으나, BERT의 입력 길이 제한으로 긴 문서에 대해서는 성능이 낮아지는 문제가 있다. 따라서, 본 논문에서는 다음의 모델을 제안하였다. 우선 긴 문서를 512 이하의 토큰으로 쪼개어 기존의 Local BERT에서 단어의 1차 문맥 표현을 얻고, 이를 다시 연결하여 원래 문서에 대한 Global Positional Embedding 값을 계산하여 더해준다. 그리고 이렇게 연결된 문맥 표현을 Global BERT layer를 통해 최종적으로 전체 문맥 표현 계산하여 상호참조해결을 수행하였다. 실험 결과, 본 논문에서 제안한 모델이 기존 모델과 유사한 성능을 보이면서, GPU 메모리 사용량은 1.4배 감소하고 속도는 2.1배 향상되었다.
장거리 상호참조해결을 위한 BERT와 군집화 방법 - 한국어와 영어 문서 적용
http://doi.org/10.5626/JOK.2020.47.12.1126
상호참조해결은 자연언어 문서 내에서 같은 개체를 나타내는 언급들을 연결하는 문제다. 대명사, 지시 관형사, 축약어 등의 사용과 동음이의어의 혼동으로 인한 동일 지시를 하는 언급들을 파악함으로서, 다양한 자연언어처리 문제의 성능 향상에 기여 할 수 있다. 본 논문에서는 현재 영어권 상호참조해결에서 좋은 성능을 내고 있는 BERT 기반 상호참조해결 모델에 개체명, 대명사 사전을 사용한 자질을 추가하고 표층형을 이용한 장거리 군집화를 적용했다. 또한 한국어 데이터셋을 사용할 때 발생하는 문제점을 해결하고 한국어, 영어 데이터에서 본 논문의 모델과 기존의 모델들을 실험하여 성능을 비교하였다. 한국어 데이터에서 기존의 연구들보다 높은 정밀도 75.7%, 재현율 68.1%, CoNLL F1-score 71.7%의 성능을 보였다. 모델들의 결과를 분석하여 기존 딥러닝 모델에 비해 문맥적 요소를 잘 파악하는 것을 확인했다.
BERT 기반 End-to-end 신경망을 이용한 한국어 상호참조해결
http://doi.org/10.5626/JOK.2020.47.10.942
상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 같은 개체(entity)를 의미하는 멘션을 찾아 그룹화하는 자연어처리 태스크이다. 한국어 상호참조해결에서는 멘션탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델과 포인터 네트워크 모델을 이용한 방법이 연구되었다. 구글에서 공개한 BERT 모델은 자연어처리 태스크에 적용되어 많은 성능 향상을 보였다. 본 논문에서는 한국어 상호참조해결을 위한 BERT 기반 end-to-end 신경망 모델을 제안하고, 한국어 데이터로 사전 학습된 KorBERT를 이용하고, 한국어의 구조적, 의미적 특징을 반영하기 위하여 의존구문분석 자질과 개체명 자질을 적용한다. 실험 결과, ETRI 질의응답 도메인 상호참조해결 데이터 셋에서 CoNLL F1(DEV) 71.00%, (TEST) 69.01%의 성능을 보여 기존 연구들에 비하여 높은 성능을 보였다.
Multi-resolution 포인터 네트워크를 이용한 상호참조해결
http://doi.org/10.5626/JOK.2019.46.4.334
Multi-resolution RNN은 입력된 병렬 시퀀스를 RNN으로 모델링하는 방법이다. 상호참조해결은 문서 내에 등장하는 개체를 표현하는 여러 단어들을 하나의 클러스터로 정의하는 자연어처리 문제이며, 포인터 네트워크로 해결할 수 있다. 포인터 네트워크를 이용한 상호참조해결의 인코더 입력열은 문서의 모든 형태소가 되며, 디코더 입력열은 문서에서 등장한 모든 명사가 된다. 본 논문에서는, 인코더에서 문서의 모든 형태소와 문서의 명사 리스트를 병렬적으로 인코딩을 수행하고, 디코더에서 두 인코딩 히든 스테이트(hidden state)를 모두 사용하여 디코딩을 수행하는 Multi-resolution 포인터 네트워크 모델 3가지를 제안하고, 이를 기반으로 상호참조해결을 수행한다. 실험 결과, 본 논문에서 제안한 모델 중 Multi-resolution1, 2, 3 모델이 각각 CoNLL F1 71.78%, 71.30%, 72.70%의 성능을 보였다.
포인터 네트워크를 이용한 멘션탐지
http://doi.org/10.5626/JOK.2017.44.8.774
멘션(mention)은 명사 또는 명사구를 중심어로 가지며, 수식어를 포함하여 어떤 의미를 정의하는 구(chunk)를 구성한다. 문장 내에서 멘션을 추출하는 것을 멘션탐지라 한다. 멘션들 중에서 서로 같은 의미의 멘션들을 찾아내는 것을 상호참조해결이라 한다. 포인터 네트워크는 RNN encoder-decoder 모델을 기반으로, 주어진 입력 열에 대응되는 위치를 출력 결과로 갖는 모델이다. 본 논문에서는 멘션탐지에 포인터 네트워크를 이용할 것을 제안한다. 멘션탐지에 포인터 네트워크를 적용하면 기존의 순차 문제로는 해결할 수 없었던 중첩된 멘션탐지 문제를 해결할 수 있다. 실험 결과, 본 논문에서 제안한 멘션탐지의 성능이 규칙기반 보다 7.65%p 이상 높은 F1 80.07%를 보였으며, 이를 이용한 상호참조해결 성능이 CoNLL F1 56.67%(멘션 경계), 60.11%(중심어 경계)로 규칙기반 멘션탐지를 이용한 상호참조해결에 비하여 7.68%p, 1.5%p 더 좋은 성능을 보였다.
포인터 네트워크를 이용한 한국어 대명사 상호참조해결
포인터 네트워크(Pointer Networks)는 Recurrent Neural Network (RNN)를 기반으로 어텐션 메커니즘(Attention mechanism)을 이용하여 입력 시퀀스에 대응되는 위치들의 리스트를 출력하는 딥러닝 모델이다. 대명사 상호참조해결은 문서 내에 등장하는 대명사와 이에 대응되는 선행사를 찾아 하나의 엔티티로 정의하는 자연어처리 문제이다. 본 논문에서는 포인터 네트워크를 이용하여 대명사와 선행사의 참조관계를 밝히는 대명사 상호참조해결 방법과 포인터 네트워크의 입력 연결순서(chaining order) 여섯 가지를 제안한다. 실험 결과, 본 논문에서 제안한 방법 중 연결순서 coref2 가 MUC F1 81.40%로 가장 좋은 성능을 보였다. 이는 기존 한국어 대명사 상호참조해결의 규칙 기반(50.40%)보다 31.00%p, 통계 기반(62.12%) 보다 19.28%p 우수한 성능임을 나타낸다.
Multi-pass Sieve를 이용한 한국어 상호참조해결
상호참조해결은 문서 내에서 선행하는 명사구와 현재 등장한 명사구 간에 같은 개체를 의미하는 지를 결정하는 문제로 정보 추출, 문서분류 및 요약, 질의응답 등에 적용된다. 본 논문은 상호참조해결의 규칙기반 방법 중 가장 성능이 좋은 Stanford의 다 단계 시브(Multi-pass Sieve) 시스템을 한국어에 적용한다. 본 논문에서는 모든 명사구를 멘션(mention)으로 다루고 있으며, Stanford의 다 단계 시브 시스템과는 달리 멘션 추출을 위해 의존 구문 트리를 이용하고, 동적으로 한국어 약어 리스트를 구축한다. 또한 한국어 대명사를 참조하는데 있어 중심화 이론 중 중심의 전이적인 특성을 적용하여 가중치를 부여하는 방법을 제안한다. 실험 결과 F1 값은 MUC 59.0%, B3 59.5%, Ceafe 63.5%, CoNLL(평균) 60.7%의 성능을 보였다.