검색 : [ author: 오영택 ] (2)

Self-Attention을 활용한 Siamese CNN-Bidirectional LSTM 기반 문장 유사도 예측

김민태, 오영택, 김우주

http://doi.org/10.5626/JOK.2019.46.3.241

본 논문에서는 입력된 두 문장의 유사도를 측정하는 딥러닝 모델을 제안한다. 기존의 문장의 유사도 측정 모델에는 단어 혹은 형태소 단위로 문장을 분해하여 임베딩 하는 방식을 활용한다. 하지만 이는 사전의 크기를 증가시켜 모델의 복잡도를 높이는 문제점이 있다. 본 논문에서는 문장을 음소 단위로 분해하여 모델 복잡도를 줄이고 해당 음소를 묶어주는 다양한 필터 사이즈의 1D Convolution Neural Network와 Long Short Term Memory(LSTM)을 결합한 Siamese CNN-Bidirectional LSTM 모델을 제안한다. 본 모델을 평가하기 위해 네이버 지식인 데이터를 활용하여 기존의 문서 유사 측정에서 좋은 성능을 보이는 모델 Manhattan LSTM(MaLSTM)과 비교하였다.

Parallel Stacked Bidirectional LSTM 모델을 이용한 한국어 영화리뷰 감성 분석

오영택, 김민태, 김우주

http://doi.org/10.5626/JOK.2019.46.1.45

감성분석은 텍스트 문서의 감성을 분류하는 문서 분류의 한 분야이다. 딥러닝을 이용한 감성분석 방법론은 문서를 토큰화 후 임베딩을 통해 문장벡터를 얻는 과정과 벡터화된 문서를 분류하는 과정으로 나눌 수 있다. 기존 연구들의 방식들을 리뷰하고 어떤 방식의 임베딩 방법과 딥러닝 모델이 한국어 문서에 적합한지 감성분석에 비교 실험을 통해 한국어에 적합한 방법론을 찾아낸다. 문서 전처리 방법은 문서를 단어, 음절 그리고 음소 단위로 토큰화 하는 방법을 비교하였다. 또한, 모델을 CNN부터 LSTM, Bi-LSTM, Stacked Bi-LSTM, 새롭게 제안하는 Parallel Stacked Bidirectional LSTM 모델까지 네이버 영화 리뷰 데이터셋인 NSMC에 대해 비교 실험을 하였다. 제안된 모델의 성능이 기존의 기본 딥러닝 모델에 비해 높은 성능을 보임을 확인하였고, 다른 전처리를 통해 학습된 모델간의 앙상블을 통해 보다 최고 성능인 88.95%의 분류 정확도를 달성하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr