BERT 임베딩과 선택적 OOV 복사 방법을 사용한 문서요약 


47권  1호, pp. 36-44, 1월  2020
10.5626/JOK.2020.47.1.36


PDF

  요약

문서 자동 요약은 주어진 문서로부터 주요 내용을 추출하거나 생성하는 방식으로 짧게 줄이는 작업이다. 생성 요약은 미리 생성된 워드 임베딩 정보를 사용한다. 하지만, 전문 용어와 같이 저빈도 핵심 어휘는 임베딩 사전에서 누락되는 문제가 발생한다. 문서 자동 요약에서 미등록 어휘의 출현은 요약 성능을 저하시킨다. 본 논문은 Selectively Pointing OOV(Out of Vocabulary) 모델에 BERT(Bidirectional Encoder Representations from Transformers) 형태소 임베딩, Masked OOV, 형태소-to-문장 변환기를 적용하여 미등록 어휘에 대한 선택적 복사 및 요약 성능을 높였다. 기존 연구와 달리 정확한 포인팅 정보와 선택적 복사 지시 정보를 명시적으로 제공하는 선택적 OOV 포인팅 복사 방법과 함께 BERT 임베딩과 OOV 랜덤 마스킹, 형태소-문장 변환기를 추가하였다. 제안한 OOV 모델을 통해서 자동 생성 요약을 수행한 결과 단어 재현 기반의 ROUGE-1이 54.97 나타났으며, 또한 어순 기반의 ROUGE-L이 39.23으로 향상되었다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

T. Lee and S. Kang, "Automatic Text Summarization Based on Selective OOV Copy Mechanism with BERT Embedding," Journal of KIISE, JOK, vol. 47, no. 1, pp. 36-44, 2020. DOI: 10.5626/JOK.2020.47.1.36.


[ACM Style]

Tae-Seok Lee and Seung-Shik Kang. 2020. Automatic Text Summarization Based on Selective OOV Copy Mechanism with BERT Embedding. Journal of KIISE, JOK, 47, 1, (2020), 36-44. DOI: 10.5626/JOK.2020.47.1.36.


[KCI Style]

이태석, 강승식, "BERT 임베딩과 선택적 OOV 복사 방법을 사용한 문서요약," 한국정보과학회 논문지, 제47권, 제1호, 36~44쪽, 2020. DOI: 10.5626/JOK.2020.47.1.36.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr