Infinite Latent Topic Models for Document Analysis 


45권  7호, pp. 701-707, 7월  2018
10.5626/JOK.2018.45.7.701


PDF

  요약

토픽의 개념은 매우 추상적이기 때문에 텍스트의 토픽 표현을 정의하기는 매우 어렵다. 문제의 맥락이나 필요에 따라 다양한 수준에서 토픽을 구분할 수 있는데 이 때문에 문서 분석을 자동화하기가 어렵게 된다. 본 논문에서는 널리 알려진 Latent Dirichlet Allocation (LDA) 모형을 무한 토픽 모형으로 확장하는 방법으로 무한 잠재 디리슐레 토픽 모형과 무한 잠재 마르코프 토픽 모형을 제안한다. 첫째 모형은 디리슐레 과정(Dirichlet process)을 이용하여 LDA에서 토픽의 고정된 개수 제한을 푸는 방법이다. 둘째 모형은 여기에 마르코프의 동적 연쇄 특징을 추가하여 텍스트 토픽의 순차적 변화 구조를 포착하는 방법이다. 제안 모델은 모두 문서를 적절한 수준의 토픽에서 구성을 분석할 수 있어서 이론적 엄밀성과 구조적 유연성을 제공한다. 일련의 실험을 통하여 관찰된 분석 결과로 기존의 LDA와 변분법 추론에 기반한 동일 모형과 비교하였을 때 보다 직관적이며 국소적 토픽 정상성(topic-stationarity)을 잘 보여주는 것을 확인해 주었다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

B. Sin, "Infinite Latent Topic Models for Document Analysis," Journal of KIISE, JOK, vol. 45, no. 7, pp. 701-707, 2018. DOI: 10.5626/JOK.2018.45.7.701.


[ACM Style]

Bong-Kee Sin. 2018. Infinite Latent Topic Models for Document Analysis. Journal of KIISE, JOK, 45, 7, (2018), 701-707. DOI: 10.5626/JOK.2018.45.7.701.


[KCI Style]

Bong-Kee Sin, "Infinite Latent Topic Models for Document Analysis," 한국정보과학회 논문지, 제45권, 제7호, 701~707쪽, 2018. DOI: 10.5626/JOK.2018.45.7.701.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr