검색 : [ keyword: 토픽 모델 ] (5)

Infinite Latent Topic Models for Document Analysis

Bong-Kee Sin

http://doi.org/10.5626/JOK.2018.45.7.701

토픽의 개념은 매우 추상적이기 때문에 텍스트의 토픽 표현을 정의하기는 매우 어렵다. 문제의 맥락이나 필요에 따라 다양한 수준에서 토픽을 구분할 수 있는데 이 때문에 문서 분석을 자동화하기가 어렵게 된다. 본 논문에서는 널리 알려진 Latent Dirichlet Allocation (LDA) 모형을 무한 토픽 모형으로 확장하는 방법으로 무한 잠재 디리슐레 토픽 모형과 무한 잠재 마르코프 토픽 모형을 제안한다. 첫째 모형은 디리슐레 과정(Dirichlet process)을 이용하여 LDA에서 토픽의 고정된 개수 제한을 푸는 방법이다. 둘째 모형은 여기에 마르코프의 동적 연쇄 특징을 추가하여 텍스트 토픽의 순차적 변화 구조를 포착하는 방법이다. 제안 모델은 모두 문서를 적절한 수준의 토픽에서 구성을 분석할 수 있어서 이론적 엄밀성과 구조적 유연성을 제공한다. 일련의 실험을 통하여 관찰된 분석 결과로 기존의 LDA와 변분법 추론에 기반한 동일 모형과 비교하였을 때 보다 직관적이며 국소적 토픽 정상성(topic-stationarity)을 잘 보여주는 것을 확인해 주었다.

토픽 모델 기반의 국가 별 SNS 관심 이슈 분석 시스템

김성훈, 윤지원

http://doi.org/

세계적으로 SNS의 이용이 활발해짐에 따라, 그와 관련한 다양한 연구가 활발히 진행 중에있다. 특히 기존의 문서 내 주제 추출에 활용되던 토픽 모델이 SNS 분석에 효과가 있음이 밝혀짐에 따라, 토픽 모델 기반의 이슈 분석과 관련한 연구들이 대거 등장하였다. 이에 본 연구에서는 기존 토픽 모델 기반의 SNS 이슈 분석 기술에 전 세계 지도 시각화 및 이슈 매칭 기술을 결합하여, 전 세계의 각 국가 별 특정 주제와 관련한 관심 이슈와 그 분포의 변화 추이를 분석할 수 있는 시스템을 제안한다. 시스템 구성요소는 트윗 수집 및 국가 별 분류 모듈, 토픽 모델 기반의 국가 별 토픽 및 분포 추출 모듈, Google geochart 기반의 토픽 및 분포 시각화 모듈이 있다. 미국과 UK 두 국가에서 발생한 5월 한 달간의 ISIS 관련 트윗을 대상으로 실험한 결과, 두 국가의 ISIS 관련 관심 이슈와 그 변화 추이를 확인할 수 있었다.

토픽 모델링과 이해관계자 요구 산출물을 이용한 요구사항 자동 우선순위화

장종인, 백종문

http://doi.org/

소프트웨어 개발에 투자되는 자원은 한정되어 있으므로 요구사항들을 우선순위화하여 중요한 요구사항부터 충족시켜야 한다. 기존 요구사항 우선순위화 기법들은 인간의 수동화된 판단에 의존하므로 요구사항의 수가 많은 경우에는 적용하기가 힘든 확장성 문제와 이해관계자 개개인의 편향된 가치판단에 노출되는 편향성 문제를 가지고 있다. 이 문제들을 해결하고자 본 논문은 요구사항 도출 단계에서 얻어지는 이해관계자 요구 산출물과 텍스트의 의미적 주제를 추리하는 토픽 모델링 기법을 이용한 자동 요구사항 우선순위화 기법, ToMSN(Topic Modeling Stakeholder Needs for requirements prioritization)을 제안한다. 이 기법을 사용자 30,000명 규모의 실제 소프트웨어 요구사항 데이터로 평가한 결과, 인간의 개입이 필요 없는 자동화 과정으로 확장성과 편향성 문제를 해결함과 더불어 우선순위화 정확도 또한 기존 수동화 기법들과 유사함을 확인할 수 있었다.

언어 자원과 토픽 모델의 순차 매칭을 이용한 유사 문장 계산 기반의 위키피디아 한국어-영어 병렬 말뭉치 구축

천주룡, 고영중

http://doi.org/

본 논문은 위키피디아로부터 한국어-영어 간 병렬 말뭉치를 구축하기 위한 연구이다. 이를 위해, 언어 자원과 토픽모델의 순차 매칭 기반의 유사 문장 계산 방법을 제안한다. 먼저, 언어자원의 매칭은 위키피디아 제목으로 구성된 위키 사전, 숫자, 다음 온라인 사전을 단어 매칭에 순차적으로 적용하였다. 또한, 위키피디아의 특성을 활용하기 위해 위키 사전에서 추정한 번역 확률을 단어 매칭에 추가 적용하였다. 그리고 토픽모델로부터 추출한 단어 분포를 유사도 계산에 적용함으로써 정확도를 향상시켰다. 실험에서, 선행연구의 언어자원만을 선형 결합한 유사 문장 계산은 F1-score 48.4%, 언어자원과 모든 단어 분포를 고려한 토픽모델의 결합은 51.6%의 성능을 보였으나, 본 논문에서 제안한 언어자원에 번역 확률을 추가하여 순차 매칭을 적용한 방법은 58.3%로 9.9%의 성능 향상을 얻었고, 여기에 중요한 단어 분포를 고려한 토픽모델을 적용한 방법이 59.1%로 7.5%의 성능 향상을 얻었다.

의미적 의존 링크 토픽 모델을 이용한 생물학 약어 중의성 해소

김선호, 윤준태, 서정연

http://doi.org/

생물학 도메인은 약어 표현이 빈번하며, 실제로 문서에서 중요한 의미를 지니는 개체명들이 약어로 표현되는 경우가 많다. 본 연구에서는 토픽과 링크 정보를 이용하여 약어 중의성을 해결하고 동일한 의미를 가지는 다양한 형태의 약어 원형들(variant forms)에 대한 그룹핑을 시도한다. 이를 위하여 LDA(latent Dirichlet allocation) 기반 의미적 의존 링크 토픽 모델(semantic dependency topic model)을 제안한다. 해당 모델은 생성 모델(generative model)의 일종으로 문서 집합의 각 문서에 등장하는 단어들은 문서에서 발생하는 토픽 분포와 토픽 당 단어 분포에 의해 생성되어 있는 것으로 가정하고, 관측 가능한 문서 집합의 단어들로부터 문서에 내재된 숨어있는 토픽 구조를 추론하여 단어 생성과 토픽 파라미터를 연결시킨다. 본 연구에서는 토픽 정보 외에 단어들 사이에 존재하는 의미적 의존성(semantic dependency)을 링크로 정의하고, 단어 간에 존재하는 링크 정보, 특히 원형과 문장에서 공기하는 단어들 사이의 링크를 파라미터화하여 중의성 해결에 이용하였다. 결과적으로 주어진 문서에 등장하는 약어에 대해 가장 가능성 있는 원형은 해당 모델을 이용하여 추론된 단어-토픽, 문서-토픽, 단어-링크 확률에 의해서 결정된다. 제안하는 모델은 MEDLINE 초록으로부터 Entrez 인터페이스를 이용해 22개의 약어 집합과 186개의 가능한 약어 원형을 이용하여 질의를 생성하고, 이를 이용해 검색된 문서들을 대상으로 학습과 테스트에 이용하였다. 실험은, 주어진 문서에 등장하는 해당 약어에 대한 원형이 무엇인지 예측하는 방식으로 98.3%의 정확률의 높은 성능을 보였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr