문서 분류의 개선을 위한 단어-문자 혼합 신경망 모델 


44권  12호, pp. 1290-1295, 12월  2017
10.5626/JOK.2017.44.12.1290


PDF

  요약

문서의 텍스트를 바탕으로 각 문서가 속한 분류를 찾아내는 문서 분류는 자연어 처리의 기본 분야 중 하나로 주제 분류, 감정 분류 등 다양한 분야에 이용될 수 있다. 문서를 분류하기 위한 신경망 모델은 크게 단어를 기본 단위로 다루는 단어 수준 모델과 문자를 기본 단위로 다루는 문자 수준 모델로 나누어진다. 본 논문에서는 문서를 분류하는 신경망 모델의 성능을 향상시키기 위하여 문자 수준과 단어 수준의 모델을 혼합한 신경망 모델을 제안한다. 제안하는 모델은 각 단어에 대하여 문자 수준의 신경망 모델로 인코딩한 정보와 단어들의 정보를 저장하고 있는 단어 임베딩 행렬의 정보를 결합하여 각 단어에 대한 특징 벡터를 만든다. 추출된 단어들에 대한 특징 벡터를 바탕으로, 주의(attention) 메커니즘을 이용한 순환 신경망을 단어 수준과 문장 수준에 각각 적용하는 계층적 신경망 구조를 통해 문서를 분류한다. 제안한 모델에 대하여 실생활 데이터를 바탕으로 한 실험으로 효용성을 검증한다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

D. Hong and K. Shim, "Hybrid Word-Character Neural Network Model for the Improvement of Document Classification," Journal of KIISE, JOK, vol. 44, no. 12, pp. 1290-1295, 2017. DOI: 10.5626/JOK.2017.44.12.1290.


[ACM Style]

Daeyoung Hong and Kyuseok Shim. 2017. Hybrid Word-Character Neural Network Model for the Improvement of Document Classification. Journal of KIISE, JOK, 44, 12, (2017), 1290-1295. DOI: 10.5626/JOK.2017.44.12.1290.


[KCI Style]

홍대영, 심규석, "문서 분류의 개선을 위한 단어-문자 혼합 신경망 모델," 한국정보과학회 논문지, 제44권, 제12호, 1290~1295쪽, 2017. DOI: 10.5626/JOK.2017.44.12.1290.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr