검색 : [ keyword: Extractive Summarization ] (3)

Exploring Text Summarization for Fake News Detection

Jie Bian, Seungeon Lee, Karandeep Singh, Meeyoung Cha

http://doi.org/10.5626/JOK.2022.49.11.926

가짜 뉴스 탐지는 방대한 양의 이종 데이터를 빠르게 수집하여 확실한 검증을 요한다. 이 논문은 텍스트 요약 기술이 뉴스의 중요한 정보나 단서를 찾아내어 가짜뉴스 탐지 문제에 기여할 수 있음을 제시한다. 잘 알려진 벤치마크 데이터셋에서 검증해본 결과 주요한 두 가지 텍스트 요약 기법이 - 추출요약 및 추상요약 - 모두 가짜뉴스 탐지 문제 해결에 각기 도움을 줌을 확인할 수 있었다. 더 나아가 방대한 뉴스 데이터로부터 텍스트 요약은 문장, 단어, 문서의 단계에서 주요 정보를 압축함으로써 근거 자료로 활용되는데 있어 모델의 설명 가능성도 보여준다.

타임라인 기반의 하나의 사건에 대한 뉴스 스트림 요약

정이안, 최수정, 박세영

http://doi.org/10.5626/JOK.2019.46.11.1140

요약 연구에서 뉴스 기사와 같이 끊임없이 생성되어 연속성을 가지는 텍스트 스트림을 대상으로 하는 연구가 수행되고 있다. 텍스트 스트림은 시간 흐름에 따라 서사를 가지므로, 시간의 흐름을 표현할 수 있는 타임라인을 기반으로 한 요약이 수행된다. 타임라인을 사용하여 다중 문서 요약을 수행하는 이전 연구들은 기사가 수집된 날짜에 국한하여 요약을 수행하여, 수집 기간 외의 중요한 사건을 알 수 없었다. 또한 타임라인의 각 시점의 요약으로 사용될 문장을 추출할 때 문장의 간결성, 해당 시점의 정보성, 전후 시점 간의 일관성에 대한 고려가 부족했다. 따라서 본 논문은 타임라인의 시점 범위를 기사 내 언급된 시점을 대상으로 하여 타임라인의 범위를 넓혔으며, 간결하며 시점의 사건을 잘 표현하며 일관성이 높은 문장을 선택하여 요약을 생성하는 방법을 제안한다. 다중 뉴스 기사가 주어졌을 때, 본문 내 식별된 시간 표현들 중 중요도가 높은 시점을 타임라인의 시점으로 사용한다. 생성된 타임라인의 각 시점 요약으로 사용될 문장은 지나치게 긴 문장은 제외하였으며, 시점 키워드를 기반으로 한 정보성 및 앞뒤 문장 간의 개체명 유지 정도로 일관성을 고려하여 추출된다. 실험 결과, 기존에 시간을 고려하여 요약을 생성하는 모델보다 ROUGE-L에서 평균적으로 0.2848 높은 점수를 얻어 더 적절한 요약을 생성함을 확인하였다.

문장 임베딩 기반 텍스트랭크를 이용한 문서 요약

정석원, 김진태, 김학수

http://doi.org/10.5626/JOK.2019.46.3.285

문서 요약은 원본 문서가 가진 주요 내용을 유지하는 축약된 크기의 문서를 만들어내는 것이다. 추출 요약은 원문에서 많은 양의 텍스트를 복사하는 것으로 문법과 정확성의 기본 수준을 보장받을 수 있어 과거부터 활발히 연구되어 왔다. 추출 요약에 사용되는 대표적 방법인 텍스트랭크는 단어의 빈도를 통해 그래프의 간선을 계산하므로 문장이 가진 의미적인 정도를 고려하기 어렵다. 이러한 단점을 해결하기 위해 본 논문에서는 문장 임베딩을 사용하는 새로운 텍스트랭크를 제안한다. 다양한 임베딩 평가를 통해 제안 방법이 일반적인 텍스트랭크 방법보다 문장의 의미를 잘 고려한 결과를 출력한다는 것을 확인하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr