디지털 라이브러리[ 검색결과 ]
Exploring Text Summarization for Fake News Detection
Jie Bian, Seungeon Lee, Karandeep Singh, Meeyoung Cha
http://doi.org/10.5626/JOK.2022.49.11.926
가짜 뉴스 탐지는 방대한 양의 이종 데이터를 빠르게 수집하여 확실한 검증을 요한다. 이 논문은 텍스트 요약 기술이 뉴스의 중요한 정보나 단서를 찾아내어 가짜뉴스 탐지 문제에 기여할 수 있음을 제시한다. 잘 알려진 벤치마크 데이터셋에서 검증해본 결과 주요한 두 가지 텍스트 요약 기법이 - 추출요약 및 추상요약 - 모두 가짜뉴스 탐지 문제 해결에 각기 도움을 줌을 확인할 수 있었다. 더 나아가 방대한 뉴스 데이터로부터 텍스트 요약은 문장, 단어, 문서의 단계에서 주요 정보를 압축함으로써 근거 자료로 활용되는데 있어 모델의 설명 가능성도 보여준다.
타임라인 기반의 하나의 사건에 대한 뉴스 스트림 요약
http://doi.org/10.5626/JOK.2019.46.11.1140
요약 연구에서 뉴스 기사와 같이 끊임없이 생성되어 연속성을 가지는 텍스트 스트림을 대상으로 하는 연구가 수행되고 있다. 텍스트 스트림은 시간 흐름에 따라 서사를 가지므로, 시간의 흐름을 표현할 수 있는 타임라인을 기반으로 한 요약이 수행된다. 타임라인을 사용하여 다중 문서 요약을 수행하는 이전 연구들은 기사가 수집된 날짜에 국한하여 요약을 수행하여, 수집 기간 외의 중요한 사건을 알 수 없었다. 또한 타임라인의 각 시점의 요약으로 사용될 문장을 추출할 때 문장의 간결성, 해당 시점의 정보성, 전후 시점 간의 일관성에 대한 고려가 부족했다. 따라서 본 논문은 타임라인의 시점 범위를 기사 내 언급된 시점을 대상으로 하여 타임라인의 범위를 넓혔으며, 간결하며 시점의 사건을 잘 표현하며 일관성이 높은 문장을 선택하여 요약을 생성하는 방법을 제안한다. 다중 뉴스 기사가 주어졌을 때, 본문 내 식별된 시간 표현들 중 중요도가 높은 시점을 타임라인의 시점으로 사용한다. 생성된 타임라인의 각 시점 요약으로 사용될 문장은 지나치게 긴 문장은 제외하였으며, 시점 키워드를 기반으로 한 정보성 및 앞뒤 문장 간의 개체명 유지 정도로 일관성을 고려하여 추출된다. 실험 결과, 기존에 시간을 고려하여 요약을 생성하는 모델보다 ROUGE-L에서 평균적으로 0.2848 높은 점수를 얻어 더 적절한 요약을 생성함을 확인하였다.
문장 임베딩 기반 텍스트랭크를 이용한 문서 요약
http://doi.org/10.5626/JOK.2019.46.3.285
문서 요약은 원본 문서가 가진 주요 내용을 유지하는 축약된 크기의 문서를 만들어내는 것이다. 추출 요약은 원문에서 많은 양의 텍스트를 복사하는 것으로 문법과 정확성의 기본 수준을 보장받을 수 있어 과거부터 활발히 연구되어 왔다. 추출 요약에 사용되는 대표적 방법인 텍스트랭크는 단어의 빈도를 통해 그래프의 간선을 계산하므로 문장이 가진 의미적인 정도를 고려하기 어렵다. 이러한 단점을 해결하기 위해 본 논문에서는 문장 임베딩을 사용하는 새로운 텍스트랭크를 제안한다. 다양한 임베딩 평가를 통해 제안 방법이 일반적인 텍스트랭크 방법보다 문장의 의미를 잘 고려한 결과를 출력한다는 것을 확인하였다.