검색 : [ keyword: Distant supervision ] (3)

CNN 기반 관계 추출 모델의 성능 향상을 위한 다중-어의 단어 임베딩 적용

남상하, 한기종, 김은경, 권성구, 정유성, 최기선

http://doi.org/10.5626/JOK.2018.45.8.816

관계 추출이란 문장 내 두 개체간의 관계를 분류하는 것으로, 많은 연구들이 관계추출 모델을 설계함에 있어 원격 지도학습 방식을 이용하고 있다. 그리고 최근 딥러닝의 발전으로 다양한 연구에서 관계 추출 모델 설계 시 CNN 또는 RNN 등의 딥러닝 모델을 적용하는 것이 주요 흐름으로 발전하고 있다. 그러나 기존 연구들에서는 모델 학습의 입력으로 사용되는 단어 임베딩의 동형이의어 문제를 해결하지 않았다는 단점이 있다. 따라서 서로 다른 의미를 가진 동형이의어가 하나의 임베딩 값으로 모델 학습이 진행되고, 그에 따라 단어의 의미를 정확히 파악하지 못한 채 관계 추출 모델을 학습한다고 볼 수 있다. 본 연구에서는 다중-어의 단어 임베딩을 적용한 관계 추출 모델을 제안한다. 다중-어의 단어 임베딩 학습을 위해 CoreNet Concept 기반의 어의 중의성 해소 모듈을 활용하였고, 관계추출 모델은 문장 내 주요 키워드를 스스로 학습하는 CNN 모델과 PCNN 모델 2가지를 활용하였다.

원거리 감독과 능동 배깅을 이용한 개체명 인식

이성희, 송영길, 김학수

http://doi.org/

개체명 인식은 문장에서 개체명을 추출하고 추출된 개체명의 범주를 결정하는 작업이다. 기존의 개체명 인식 연구는 주로 지도 학습 기법이 사용되어 왔다. 지도 학습을 위해서는 개체명 범주가 수동으로 부착된 대용량의 학습 말뭉치가 필요하며, 대용량의 학습 말뭉치를 수동으로 구축하는 것은 시간과 인력이 많이 들어가는 일이다. 본 논문에서는 학습 말뭉치 구축비용을 최소화하면서 개체명 인식 성능을 빠르게 향상시키기 위한 준지도 학습 방법을 제안한다. 제안 방법은 초기 학습 말뭉치를 구축하기 위해 원거리 감독법을 사용한다. 그리고 배깅과 능동 학습을 결합한 앙상블 기법의 하나인 능동 배깅을 사용하여 초기 학습 말뭉치에 포함된 노이즈 문장을 효과적으로 제거한다. 실험 결과, 15회의 능동 배깅을 통해 개체명 인식 F1-점수를 67.36%에서 76.42%로 향상시켰다.

어휘 정보와 구문 패턴에 기반한 단일 클래스 분류 모델

이현구, 최맹식, 김학수

http://doi.org/

관계 추출은 질의응답 및 지식확장 등에 널리 사용될 수 있는 주요 정보추출 기술이다. 정보추출에 관한 기존 연구들은 관계 범주가 수동으로 부착된 대용량의 학습 데이터를 필요로 하는 지도 학습모델을 기반으로 이루어져 왔다. 최근에는 학습 데이터 구축을 위한 인간의 노력을 줄이기 위해 원거리감독법이 제안되었다. 그러나 원거리 감독법은 분류 문제를 해결하는데 필수적인 부정 학습 데이터를 수집하기 어렵다는 단점이 있다. 이러한 원거리 감독법의 단점을 극복하기 위해 본 논문에서는 부정 데이터없이 학습이 가능한 단일 클래스 분류 모델을 제안한다. 입력 데이터로부터 긍정 데이터를 선별하기 위해서 제안 모델은 벡터 공간 상에서 어휘 정보와 구문 패턴에 기반한 유사도 척도를 사용하여 입력 데이터가 내부 범주에 속하는지 그렇지 않은지 판단한다. 실험에서 제안 모델은 대표적인 단일 클래스 분류 모델인 One-class SVM보다 높은 성능(0.6509 F1-점수, 0.6833 정밀도)을 보였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr