문서 쌍 유사도 판별을 위한 문장 상호 관계 및 그래프 기반 모델의 앙상블 


48권  11호, pp. 1184-1193, 11월  2021
10.5626/JOK.2021.48.11.1184


PDF

  요약

뉴스 기사와 같은 문서 클러스터링에서 두 문서 간의 유사도는 클러스터의 특성을 결정하는 중요한 부분 중 하나이다. 기존 딥러닝 기반 접근 방법인 시퀀스 유사도 측정 모델은 문서 단위에서 나타나는 긴 문맥을 반영하지 못하는 문제점을 가지고 있다. 본 연구에서는 뉴스 클러스터링에 적합한 문서 쌍 유사도 모델을 구성하기 위해 상호 작용 기반 접근, 그래프 기반 접근 방법을 사용한다. 상호 작용 기반 접근에서는 문서 쌍 내 다수의 문장 표현들 간의 유사도 정보를 종합해 전체 문서 쌍의 유사도를 측정하는 네 가지 유사도 모델을 제안한다. 기존 접근 방법들인 SVM, HAN에 비해 두 가지 접근 방법에서 높은 성능이 나타남을 확인했다. 그래프 기반 접근에서는 입력에 사용되는 자질의 종류와 신경망의 깊이에 따른 성능 변화를 확인했다. 또한, 상이한 두 접근 방법이 갖는 예측양상의 차이와 상호보완성을 오류 분석과 앙상블을 통해 확인했다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

S. Choi, D. Son, H. Lee, "Ensemble of Sentence Interaction and Graph Based Models for Document Pair Similarity Estimation," Journal of KIISE, JOK, vol. 48, no. 11, pp. 1184-1193, 2021. DOI: 10.5626/JOK.2021.48.11.1184.


[ACM Style]

Seonghwan Choi, Donghyun Son, and Hochang Lee. 2021. Ensemble of Sentence Interaction and Graph Based Models for Document Pair Similarity Estimation. Journal of KIISE, JOK, 48, 11, (2021), 1184-1193. DOI: 10.5626/JOK.2021.48.11.1184.


[KCI Style]

최성환, 손동현, 이호창, "문서 쌍 유사도 판별을 위한 문장 상호 관계 및 그래프 기반 모델의 앙상블," 한국정보과학회 논문지, 제48권, 제11호, 1184~1193쪽, 2021. DOI: 10.5626/JOK.2021.48.11.1184.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr