검색 : [ keyword: 주제 키워드 기반 문서 요약 ] (1)

주제 어트리뷰트 모델을 이용한 주제 키워드 기반 한국어 문서 요약

윤수환, 김아영, 박성배

http://doi.org/10.5626/JOK.2021.48.6.688

문서 추상 요약은 요약 모델이 원문의 핵심 정보를 파악하여 새로운 요약문을 생성하는 작업이다. 이때 추상 요약 모델로 일반적인 Sequence-to-Sequence 모델을 많이 사용하였지만 여기에 핵심정보를 잘 표현하고 요약문에 반영하기 위해 주제(topic)을 넣어 요약문을 생성하는 주제 중심 요약(Topic centric summarization)을 하는 연구가 최근에 진행되고 있다. 그러나 기존의 방법은 주제 분포(Topic distribution)를 반영하여 문장을 생성하기 위해 모델을 처음부터 학습해야 하기 때문에 사전 학습 언어 모델의 장점을 살리기 어렵다. 본 논문에서는 사전 학습 언어 모델의 장점을 살리면서 주제 키워드를 요약문에 반영하여 주제 중심 요약을 할 수 있는 방법을 제시한다. 제안하는 주제 중심 요약 방법은 기존 조건부 언어 모델(Conditional Language Model)에서 연구되었던 PPLM (Plug and Play Language Model)의 어트리뷰트 모델을 문서 요약에서 사용되는 사전 학습 Sequence-to-Sequence 모델인 MASS에 적용하여 ‘주제 키워드 기반 요약문’을 생성하는 방법이다. 제안하는 방법은 별도의 추가 학습을 요구하지 않기 때문에 MASS의 언어 능력과 파인 튜닝으로 학습한 요약 능력을 그대로 사용함과 동시에 특정 키워드를 등장시켜 주제에서 벗어나지 않는 요약문을 생성할 수 있게 한다. 제안하는 방법의 우수성을 보이기 위해 BERT+Transformer 디코더를 사용한 모델, PPLM을 적용하지 않은 MASS 모델과 한국어 요약성능을 비교하였으며 평균적으로 ROUGE와 BERTScore 모두 성능이 향상되는 것을 확인할 수 있었다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr