검색 : [ keyword: multi-document summarization ] (2)

타임라인 기반의 하나의 사건에 대한 뉴스 스트림 요약

정이안, 최수정, 박세영

http://doi.org/10.5626/JOK.2019.46.11.1140

요약 연구에서 뉴스 기사와 같이 끊임없이 생성되어 연속성을 가지는 텍스트 스트림을 대상으로 하는 연구가 수행되고 있다. 텍스트 스트림은 시간 흐름에 따라 서사를 가지므로, 시간의 흐름을 표현할 수 있는 타임라인을 기반으로 한 요약이 수행된다. 타임라인을 사용하여 다중 문서 요약을 수행하는 이전 연구들은 기사가 수집된 날짜에 국한하여 요약을 수행하여, 수집 기간 외의 중요한 사건을 알 수 없었다. 또한 타임라인의 각 시점의 요약으로 사용될 문장을 추출할 때 문장의 간결성, 해당 시점의 정보성, 전후 시점 간의 일관성에 대한 고려가 부족했다. 따라서 본 논문은 타임라인의 시점 범위를 기사 내 언급된 시점을 대상으로 하여 타임라인의 범위를 넓혔으며, 간결하며 시점의 사건을 잘 표현하며 일관성이 높은 문장을 선택하여 요약을 생성하는 방법을 제안한다. 다중 뉴스 기사가 주어졌을 때, 본문 내 식별된 시간 표현들 중 중요도가 높은 시점을 타임라인의 시점으로 사용한다. 생성된 타임라인의 각 시점 요약으로 사용될 문장은 지나치게 긴 문장은 제외하였으며, 시점 키워드를 기반으로 한 정보성 및 앞뒤 문장 간의 개체명 유지 정도로 일관성을 고려하여 추출된다. 실험 결과, 기존에 시간을 고려하여 요약을 생성하는 모델보다 ROUGE-L에서 평균적으로 0.2848 높은 점수를 얻어 더 적절한 요약을 생성함을 확인하였다.

실시간 뉴스 기반의 이슈 분석을 위한 점증적 군집화 및 다중 문서 요약

유홍연, 이승우, 고영중

http://doi.org/10.5626/JOK.2019.46.4.355

실시간 이슈 분석을 위해서는 실시간으로 생성되는 대량의 뉴스 기사 집합을 입력으로 받아 점증적으로 군집화 하고, 각 군집별 정보를 자동으로 요약하는 기술이 필요하다. 기존에는 정적인 데이터 기반의 군집 및 요약 각각에 대한 연구는 활발히 진행되고 있지만, 실시간으로 입력되는 대량의 데이터를 위한 점증적인 군집화와 요약에 대한 연구는 매우 부족하다. 따라서 본 논문에서는 실시간으로 입력되는 대량의 뉴스 기사 집합을 분석하기 위한 점증적이고 계층적인 뉴스 군집화 및 다중 문서 요약 방법을 제안한다. 평가를 위해서 정성 및 정량 평가 방법을 모두 사용하였다. 그 결과, 정성 평가에서 군집 및 요약 성능은 각각 평균 66%, 요약 성능은 평균 92%를 얻었으며, 정량 평가에서 군집 성능은 평균 53.95%, 요약 성능은 ROUGE-1: 0.2269, ROUGE-2: 0.1018, ROUGE-L: 0.1689의 결과를 얻었다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr