검색 : [ author: Jihee Ryu ] (2)

형태소 수준의 BERT 임베딩을 통한 한국어 상호참조해결

조경빈, 최요한, 이창기, 류지희, 임준호

http://doi.org/10.5626/JOK.2023.50.6.495

상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 한국어 상호참조해결은 End-to-End 방식으로 주로 연구가 되고 있으며, 이를 위해 모든 스팬을 잠재적인 멘션으로 간주해야 되기 때문에 메모리 사용량과 시간 복잡도가 상승하는 문제가 있다. 본 논문에서는 서브 토큰을 다시 단어단위로 매핑하여 상호참조해결을 수행하는 워드 레벨 상호참조해결 모델을 한국어에 적용하였으며, 한국어 특성을 반영하기 위해 워드 레벨 상호참조해결 모델의 토큰 표현을 CorefBERT를 통해 계산한 후 개체명 자질과 의존 구문 분석 자질을 추가하였다. 실험 결과, ETRI 질의응답 도메인 평가 셋에서 F1 70.68%로, 기존 End-to-End 방식의 상호참조해결 모델 대비 1.67% 성능 향상을 보이면서 메모리 사용량은 2.4배 좋아졌고, 속도는 1.82배 빨라졌다.

긴 문서를 위한 BERT 기반의 End-to-End 한국어 상호참조해결

조경빈, 정영준, 이창기, 류지희, 임준호

http://doi.org/10.5626/JOK.2023.50.1.32

상호참조해결은 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델이 주로 연구되었으나, BERT의 입력 길이 제한으로 긴 문서에 대해서는 성능이 낮아지는 문제가 있다. 따라서, 본 논문에서는 다음의 모델을 제안하였다. 우선 긴 문서를 512 이하의 토큰으로 쪼개어 기존의 Local BERT에서 단어의 1차 문맥 표현을 얻고, 이를 다시 연결하여 원래 문서에 대한 Global Positional Embedding 값을 계산하여 더해준다. 그리고 이렇게 연결된 문맥 표현을 Global BERT layer를 통해 최종적으로 전체 문맥 표현 계산하여 상호참조해결을 수행하였다. 실험 결과, 본 논문에서 제안한 모델이 기존 모델과 유사한 성능을 보이면서, GPU 메모리 사용량은 1.4배 감소하고 속도는 2.1배 향상되었다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr