검색 : [ author: Hyunki Jang ] (2)

자모 단위 합성곱 신경망 기반 맞춤법 오류가 포함된 자주 묻는 질문 자동 분류

장영진, 김학수, 강동호, 김세빈, 장현기

http://doi.org/10.5626/JOK.2019.46.6.563

웹이나 모바일 사용자는 홈페이지에 구축된 자주 묻는 질문 시스템(Frequently Asked Question: FAQ, 이하 FAQ)을 이용하여 원하는 정보를 얻는다. 기존 FAQ 시스템은 검색 모델을 기반으로 입력과 가장 유사하다고 판단되는 질의응답 후보를 사용자에게 보여준다. 하지만 검색 모델은 문서 색인에 의존하기 때문에 입력 문장의 맞춤법 오류에 취약하다. 따라서 본 논문에서는 FAQ 시스템을 문장분류기에 적용하여 맞춤법 오류를 최소화하는 모델을 제안한다. 자모 단위 합성곱 신경망을 이용한 임베딩 계층을 통해 사용자 입력의 맞춤법 오류를 줄이고, 클래스 임베딩과 전방 전달 신경망을 적용하여 분류기의 성능을 높였다. 제안 모델은 457개와 769개의 FAQ 클래스 분류에 대한 실험 결과로 Micro F1 score 기준 각각 81.32%p, 61.11%p의 높은 성능을 보였으며, 모델 예측의 신뢰도를 평가하기 위해 sigmoid 함수를 이용하여 신뢰도를 수치화했다.

단어 간의 상대적 위치정보를 이용한 단어 임베딩

황현선, 이창기, 장현기, 강동호

http://doi.org/10.5626/JOK.2018.45.9.943

자연어처리에 딥 러닝을 적용하기 위해 사용되는 Word embedding은 단어를 벡터 공간상에 표현하는 것으로 차원축소 효과와 더불어 유사한 의미의 단어는 유사한 벡터 값을 갖는다는 장점이 있다. 이러한 word embedding은 대용량 코퍼스를 학습해야 좋은 성능을 얻을 수 있다. 그러나 기존에 자주 사용되던 word2vec 모델은 대용량 코퍼스 학습을 위해 모델을 단순화 하여 단어의 등장 비율을 주로 학습하게 되어 단어 간의 상대적 위치정보를 이용하지 않는다는 단점이 있다. 본 논문에서는 기존의 word embedding 학습 모델을 단어 간의 상대적 위치정보를 이용하여 학습할 수 있도록 수정하였다. 실험 결과 단어 간의 상대적 위치정보를 이용하여 word embedding을 학습 하였을 경우 word-analogy의 성능이 향상되었다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr