검색 : [ keyword: Text Summarization ] (7)

Exploring Text Summarization for Fake News Detection

Jie Bian, Seungeon Lee, Karandeep Singh, Meeyoung Cha

http://doi.org/10.5626/JOK.2022.49.11.926

가짜 뉴스 탐지는 방대한 양의 이종 데이터를 빠르게 수집하여 확실한 검증을 요한다. 이 논문은 텍스트 요약 기술이 뉴스의 중요한 정보나 단서를 찾아내어 가짜뉴스 탐지 문제에 기여할 수 있음을 제시한다. 잘 알려진 벤치마크 데이터셋에서 검증해본 결과 주요한 두 가지 텍스트 요약 기법이 - 추출요약 및 추상요약 - 모두 가짜뉴스 탐지 문제 해결에 각기 도움을 줌을 확인할 수 있었다. 더 나아가 방대한 뉴스 데이터로부터 텍스트 요약은 문장, 단어, 문서의 단계에서 주요 정보를 압축함으로써 근거 자료로 활용되는데 있어 모델의 설명 가능성도 보여준다.

MASS와 복사 및 커버리지 메커니즘과 길이 임베딩을 이용한 한국어 문서 요약

정영준, 이창기, 고우영, 윤한준

http://doi.org/10.5626/JOK.2022.49.1.25

문서 요약은 주어진 문서로부터 중요하고 핵심적인 정보를 포함하는 요약문을 만들어내는 기술로, sequence-to-sequence 모델을 사용한 end-to-end 방식의 생성 요약 모델이 주로 연구되고 있다. 최근에는 대용량 단일 언어 데이터 기반 사전학습 모델을 이용하여 미세조정하는 전이 학습 방법이 자연어 처리 분야에서 활발히 연구되고 있다. 본 논문에서는 MASS 모델에 복사 메커니즘 방법을 적용하고, 한국어 언어 생성을 위한 사전학습을 수행한 후, 이를 한국어 문서 요약에 적용하였다. 또한, 요약 모델 개선을 위해 커버리지 메커니즘과 길이 임베딩을 추가로 적용하였다. 실험 결과, MASS 모델에 복사 및 커버리지 메커니즘 방법을 적용한 한국어 문서 요약 모델이 기존 모델들보다 높은 성능을 보였고, 길이 임베딩을 통해 요약문의 길이를 조절할 수 있음을 보였다.

어텐션기반 측면추출에 기반한 제품리뷰의 측면 요약

정준녕, 김상영, 김성태, 이정재, 정유철

http://doi.org/10.5626/JOK.2021.48.12.1318

최근 기계학습을 통한 기사, 논문 등과 같은 문서 요약뿐만 아니라 온라인 리뷰에 대한 요약 관련 연구도 활발하다. 본 연구에서는 기존의 단순히 내용을 요약하는 것과는 달리, 제품 리뷰에 존재하는 다양한 측면(aspect)를 고려하여 측면 요약을 생성하는 기법을 다룬다. 학습 데이터 구축을 위해 크롤링한 이어폰 제품리뷰 데이터를 정제하여 4만여개의 리뷰를 획득하였고, 이 중 4천개의 리뷰를 수작업을 통해 측면 요약정답 셋을 구축하였다. 특히, 측면 기반 단어 확장 기법(ABAE)를 활용하여 텍스트 데이터만 있으면 측면 요약이 가능한 모델을 제안한다. 제안 기법의 효율성을 판단하기 위해, 학습 시 측면과 관련된 단어 사용 여부와 마스킹 비율에 따른 실험을 진행하였다. 측면과 관련된 단어 중 25%를 무작위로 마스킹 한 모델이 가장 높은 성능을 보이는 것을 확인하였으며 검증 시 ROUGE는 0.696, BERTScore는 0.879를 획득하였다.

트랜스포머 기반 한국어 텍스트 요약 모델의 순차적 문맥 학습 영향성 분석

김수빈, 김용준, 방준성

http://doi.org/10.5626/JOK.2021.48.10.1097

텍스트 요약 기술은 전체 텍스트 내용이 가지는 의미를 유지하면서도 텍스트의 길이를 줄여, 정보 과적재 문제를 해결하고 독자의 빠른 정보 소비를 돕는다. 이를 위해 트랜스포머 기반의 영어 텍스트 요약 모델에 대한 연구가 활발히 진행되고 있다. 최근에는 RNN 기반의 인코더를 추가하여 고정된 어순을 갖는 영어의 특성을 반영한 추상 텍스트 요약 모델이 제안되기도 했다. 본 논문은 영어보다 자유로운 어순을 갖는 한국어에 대해 RNN 기반의 인코더를 이용하여, 텍스트 추상 요약 모델에 순차적 문맥 학습이 어떠한 영향을 미치는지 연구하였다. 직접 수집한 한국어 기사에 대해 트랜스포머 기반 모델과 기존 트랜스포머에 RNN 기반 인코더를 추가한 모델을 학습하여 제목 생성 및 기사 내용 요약 성능을 분석하였다. 실험 결과, RNN 기반의 인코더를 추가한 모델이 더 높은 성능을 보였으며, 한국어 텍스트의 추상 요약 수행 시, 순차적인 문맥 학습이 필요함을 확인하였다.

MASS와 상대 위치 표현을 이용한 한국어 문서 요약

정영준, 황현선, 이창기

http://doi.org/10.5626/JOK.2020.47.9.873

언어 생성(language generation) 작업에서는 Sequence-to-Sequence 모델을 이용하여 자연어를 생성하는 딥러닝 기반의 모델이 활발히 연구되고 있으며, 기존에 문서에서 핵심 문장만 추출(extractive)하는 방식을 사용하였던 문서 요약 분야에서도 생성(abstractive) 요약 연구가 진행되고 있다. 최근에는 BERT와 MASS 같은 대용량 단일 언어 데이터 기반 사전학습(pre-training) 모델을 이용하여 미세조정(fine-tuning)하는 전이 학습(transfer learning) 방법이 자연어 처리 분야에서 주로 연구되고 있다. 본 논문에서는 MASS 모델을 이용하여 한국어 언어 생성을 위한 사전학습을 수행한 후 이를 한국어 문서 요약에 적용하였다. 실험 결과, MASS 모델을 이용한 한국어 문서 요약 모델이 기존 모델들보다 높은 성능을 보였고, 추가로 MASS 모델에 상대 위치 표현 방법을 적용하여 문서 요약 모델의 성능을 개선하였다.

BERT 임베딩과 선택적 OOV 복사 방법을 사용한 문서요약

이태석, 강승식

http://doi.org/10.5626/JOK.2020.47.1.36

문서 자동 요약은 주어진 문서로부터 주요 내용을 추출하거나 생성하는 방식으로 짧게 줄이는 작업이다. 생성 요약은 미리 생성된 워드 임베딩 정보를 사용한다. 하지만, 전문 용어와 같이 저빈도 핵심 어휘는 임베딩 사전에서 누락되는 문제가 발생한다. 문서 자동 요약에서 미등록 어휘의 출현은 요약 성능을 저하시킨다. 본 논문은 Selectively Pointing OOV(Out of Vocabulary) 모델에 BERT(Bidirectional Encoder Representations from Transformers) 형태소 임베딩, Masked OOV, 형태소-to-문장 변환기를 적용하여 미등록 어휘에 대한 선택적 복사 및 요약 성능을 높였다. 기존 연구와 달리 정확한 포인팅 정보와 선택적 복사 지시 정보를 명시적으로 제공하는 선택적 OOV 포인팅 복사 방법과 함께 BERT 임베딩과 OOV 랜덤 마스킹, 형태소-문장 변환기를 추가하였다. 제안한 OOV 모델을 통해서 자동 생성 요약을 수행한 결과 단어 재현 기반의 ROUGE-1이 54.97 나타났으며, 또한 어순 기반의 ROUGE-L이 39.23으로 향상되었다.

단어 생성 이력을 이용한 요약문 생성의 어휘 반복 문제 해결

류재현, 노윤석, 최수정, 박세영, 박성배

http://doi.org/10.5626/JOK.2019.46.6.535

시퀀스-투-시퀀스 기반의 요약 모델에서 자주 발생하는 문제 중 하나는 요약문의 생성과정에서 단어나 구, 문장이 불필요하게 반복적으로 생성되는 것이다. 이를 해결하기 위해 기존 연구들은 대부분 모델에 여러 모듈을 추가하는 방법을 제안했지만, 위 방법은 생성하지 말아야 하는 단어에 대한 학습이 부족하여 반복 생성 문제를 해결함에 있어 한계가 있다. 본 논문에서는 단어 생성 이력을 직접적으로 이용하여 반복 생성을 제어하는 Repeat Loss를 이용한 새로운 학습 방법을 제안한다. Repeat Loss를 디코더가 단어 생성 확률을 계산 했을 때 이전에 생성한 단어가 다시 생성될 확률로 정의함으로써 실제 생성한 단어가 반복 생성될 확률을 직접적으로 제어할 수 있다. 제안한 방법으로 요약 모델을 학습한 결과, 단어 반복이 줄어들어 양질의 요약을 생성하는 것을 실험적으로 확인할 수 있었다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr