디지털 라이브러리[ 검색결과 ]
사건 단어 주의 집중 메커니즘을 적용한 단일 문장 요약 생성
http://doi.org/10.5626/JOK.2020.47.2.155
요약이란 자연어 처리 연구 분야 중 하나로, 입력으로 주어진 정보 중 중요한 내용은 유지하면서 문장을 짧게 만드는 태스크이다. 그 중 단일 문장을 대상으로 한 요약 연구 중 입력 문장의 단어를 요약 문장에 사용할지 버릴지를 이진 분류하여 단어를 추출하여 요약을 수행하는 방법과 입력 문장을 기반으로 요약 문장을 생성하는 방법이 있다. 기존의 추출 요약 연구들은 단어의 구조적 정보를 사용하여 이진 분류를 수행하였고, 문장을 생성하는 방법들은 순환신경망을 이용하여 요약 문장을 생성하였다. 하지만 이러한 접근 방법은 중요한 정보를 누락하고 불필요한 정보로 요약을 생성하는 문제가 있다. 따라서 본 논문에서는 무엇을 행하였는지에 대한 정보를 제공할 수 있는 사건 단어를 사용하여, 중요한 정보에 집중하여 요약을 수행할 수 있도록 사건 단어 주의집중 메커니즘을 제안한다. 입력으로 문장 내 각 단어의 임베딩 벡터와 사건 단어 정보가 제공됐을 때, 제안한 방법은 사건 단어에 주의 집중할 수 있도록 사건 단어 정보를 사용하여 주의집중 가중치를 계산하고, 이 가중치는 기존의 모델에 결합하여 사용된다. 실험은 영어와 한국어 데이터 셋에서 수행되었으며, 기존 모델에 제안한 방법을 결합하여 평가를 수행하였다. 실험 결과, 기존 모델보다 제안한 방법을 적용한 모델이 높은 성능을 얻어, 제안한 방법이 효과적임을 입증하였다.
타임라인 기반의 하나의 사건에 대한 뉴스 스트림 요약
http://doi.org/10.5626/JOK.2019.46.11.1140
요약 연구에서 뉴스 기사와 같이 끊임없이 생성되어 연속성을 가지는 텍스트 스트림을 대상으로 하는 연구가 수행되고 있다. 텍스트 스트림은 시간 흐름에 따라 서사를 가지므로, 시간의 흐름을 표현할 수 있는 타임라인을 기반으로 한 요약이 수행된다. 타임라인을 사용하여 다중 문서 요약을 수행하는 이전 연구들은 기사가 수집된 날짜에 국한하여 요약을 수행하여, 수집 기간 외의 중요한 사건을 알 수 없었다. 또한 타임라인의 각 시점의 요약으로 사용될 문장을 추출할 때 문장의 간결성, 해당 시점의 정보성, 전후 시점 간의 일관성에 대한 고려가 부족했다. 따라서 본 논문은 타임라인의 시점 범위를 기사 내 언급된 시점을 대상으로 하여 타임라인의 범위를 넓혔으며, 간결하며 시점의 사건을 잘 표현하며 일관성이 높은 문장을 선택하여 요약을 생성하는 방법을 제안한다. 다중 뉴스 기사가 주어졌을 때, 본문 내 식별된 시간 표현들 중 중요도가 높은 시점을 타임라인의 시점으로 사용한다. 생성된 타임라인의 각 시점 요약으로 사용될 문장은 지나치게 긴 문장은 제외하였으며, 시점 키워드를 기반으로 한 정보성 및 앞뒤 문장 간의 개체명 유지 정도로 일관성을 고려하여 추출된다. 실험 결과, 기존에 시간을 고려하여 요약을 생성하는 모델보다 ROUGE-L에서 평균적으로 0.2848 높은 점수를 얻어 더 적절한 요약을 생성함을 확인하였다.