검색 : [ author: Key-sun Choi ] (4)

장거리 상호참조해결을 위한 BERT와 군집화 방법 - 한국어와 영어 문서 적용

허철훈, 김건태, 최기선

http://doi.org/10.5626/JOK.2020.47.12.1126

상호참조해결은 자연언어 문서 내에서 같은 개체를 나타내는 언급들을 연결하는 문제다. 대명사, 지시 관형사, 축약어 등의 사용과 동음이의어의 혼동으로 인한 동일 지시를 하는 언급들을 파악함으로서, 다양한 자연언어처리 문제의 성능 향상에 기여 할 수 있다. 본 논문에서는 현재 영어권 상호참조해결에서 좋은 성능을 내고 있는 BERT 기반 상호참조해결 모델에 개체명, 대명사 사전을 사용한 자질을 추가하고 표층형을 이용한 장거리 군집화를 적용했다. 또한 한국어 데이터셋을 사용할 때 발생하는 문제점을 해결하고 한국어, 영어 데이터에서 본 논문의 모델과 기존의 모델들을 실험하여 성능을 비교하였다. 한국어 데이터에서 기존의 연구들보다 높은 정밀도 75.7%, 재현율 68.1%, CoNLL F1-score 71.7%의 성능을 보였다. 모델들의 결과를 분석하여 기존 딥러닝 모델에 비해 문맥적 요소를 잘 파악하는 것을 확인했다.

음수 미포함 행렬 분해를 통한 지식베이스 확장 모델

김지호, 남상하, 최기선

http://doi.org/10.5626/JOK.2018.45.9.918

지식베이스는 기계가 이해할 수 있도록 세상에 존재하는 모든 지식을 데이터베이스화 하는 것에 그 목적이 있다. 지식베이스가 유용하게 사용될 수 있기 위해서는 지속적으로 새로운 지식을 획득하여 추가해야 하는데, 지식 획득 능력의 부족으로 항상 지식 부족 문제에 시달리고 있다. 지식 획득은 주로 자연언어문장을 분석하여 새로운 지식을 추출하는 외부적인 지식 획득에 의해서 이루어지지만, 지식베이스 내부에 있는 지식만을 이용하여 내부적으로 지식을 확장해 나가는 방법에 대해서는 연구가 소홀이 이루어지고 있다. 따라서 본 논문에서는 음수 미포함 행렬 분해를 통한 내부적인 지식베이스 확장에 관하여 소개한다. 본 논문에서 소개하는 모델은 지식베이스를 행렬로 변환한 뒤에 음수 미포함 행렬 분해를 통해 개체쌍과 관계의 특징 벡터들을 학습하고, 이를 다시 재조합하여 새로운 지식에 대한 신뢰도를 계산한다. 모델의 실효성을 입증하기 위하여 한국어 디비피디아를 대상으로 한 실험 및 분석 결과를 소개한다.

CNN 기반 관계 추출 모델의 성능 향상을 위한 다중-어의 단어 임베딩 적용

남상하, 한기종, 김은경, 권성구, 정유성, 최기선

http://doi.org/10.5626/JOK.2018.45.8.816

관계 추출이란 문장 내 두 개체간의 관계를 분류하는 것으로, 많은 연구들이 관계추출 모델을 설계함에 있어 원격 지도학습 방식을 이용하고 있다. 그리고 최근 딥러닝의 발전으로 다양한 연구에서 관계 추출 모델 설계 시 CNN 또는 RNN 등의 딥러닝 모델을 적용하는 것이 주요 흐름으로 발전하고 있다. 그러나 기존 연구들에서는 모델 학습의 입력으로 사용되는 단어 임베딩의 동형이의어 문제를 해결하지 않았다는 단점이 있다. 따라서 서로 다른 의미를 가진 동형이의어가 하나의 임베딩 값으로 모델 학습이 진행되고, 그에 따라 단어의 의미를 정확히 파악하지 못한 채 관계 추출 모델을 학습한다고 볼 수 있다. 본 연구에서는 다중-어의 단어 임베딩을 적용한 관계 추출 모델을 제안한다. 다중-어의 단어 임베딩 학습을 위해 CoreNet Concept 기반의 어의 중의성 해소 모듈을 활용하였고, 관계추출 모델은 문장 내 주요 키워드를 스스로 학습하는 CNN 모델과 PCNN 모델 2가지를 활용하였다.

한국어 서술어와 지식베이스 프로퍼티 연결

원유성, 우종성, 김지성, 함영균, 최기선

http://doi.org/

본 논문은 자연언어 문장을 지식베이스의 지식 골격에 맞추어 지식의 형태로 변환하기 위한 과정 중의 하나인 관계추출(Relation Extraction)을 목표로 한다. 특히, 문장 내에 있는 서술어(Predicate)에 집중하여 서술어와 관련성 높은 지식베이스 프로퍼티(Property or Relation)를 찾아내고, 이를 통해 두 개체(Entity)간의 의미를 파악하는 관계추출에 초점을 둔다. 이에 널리 활용되는 원격지도학습(Distant Supervision) 접근 방식에 따라, 지식베이스와 자연언어 텍스트로부터 원격 학습이 가능한 레이블(Labeled)데이터를 자동으로 마련하여 지식베이스 프로퍼티에 대한 어휘화 작업을 수행한다. 즉, 두 개체 사이의 관계로 표현되는 서술어와, 온톨로지로 정의할 수 있는 프로퍼티와의 연결을 통해, 텍스트로부터 구조적 정보를 생성할 수 있는 기반을 마련하고 최종적으로 지식베이스 확장의 가능성을 열어준다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr