검색 : [ keyword: pre-training ] (8)

한국어 문서 요약 모델의 성능 향상을 위한 포스트 트레이닝 기법

김소언, 홍성은, 박규민, 홍충선, 박성배

http://doi.org/10.5626/JOK.2023.50.10.882

문서 요약은 긴 문서를 바탕으로 짧은 요약문을 생성하는 태스크로, 최근 트랜스포머 모델 기반의 사전 학습 모델을 사용하는 방식이 높은 효과를 보이고 있다. 하지만 사전 학습과 미세 조정 간의 학습 격차로 인해, 미세 조정이 모델을 최적 상태로 학습시키지 못한다는 것이 증명됨에 따라 사전 학습과 미세 조정 사이에 추가 학습을 진행하는 포스트 트레이닝이 제안되었다. 본 논문에서는 한국어 문서 요약에 최적화된 포스트 트레이닝을 위해 한국어 구조에 대해 학습할 수 있는 한국어 띄어쓰기 방법과 문서요약문 생성에 대한 학습을 위한 첫 번째 문장 마스킹 방법을 제안하였다. 실험을 통해 제안하는 포스트 트레이닝을 사용하였을 때 사용하지 않았을 때보다 성능이 향상됨을 보임으로써 제안하는 포스트 트레이닝 기법이 효과적임을 증명하였다.

문장의 의미적 유사도와 정보량을 사용한 다중 문서 요약

임연수, 권성구, 김봉민, 박성배

http://doi.org/10.5626/JOK.2023.50.7.561

간결한 형식으로 정보를 전달하는 문서 요약 기술은 최근 자연어처리 분야의 중요한 과제로 떠오르고 있다. 하지만, 여러 문서가 주어질 때 이들의 정보를 파악하고 요약하는 다중 문서 요약은 학습에 적합한 데이터가 부족해 연구에 어려움이 있다. 본 논문에서는 이러한 문제를 해결하기 위해 단일 문서에 대한 요약문을 생성한 뒤 요약문을 후처리하는 방식의 다중 문서 요약 모델을 제안한다. 제안 모델은 요약 모듈, 유사도 측정 모듈, 정보량 랭킹 모듈로 이루어져 있다. 다중 문서가 제안 모델에 입력되면 요약 모듈은 각 문서에 대한 요약문을 생성한다. 유사도 측정 모듈에서 생성된 요약문에 대해 의미적 유사도를 측정해 유사한 요약문들을 클러스터링한다. 정보량 랭킹 모듈은 유사한 요약문 그룹에서 가장 정보량이 큰 요약문을 선택하고, 선택된 요약문을 모아 최종 요약문으로 출력한다. 실험을 통해 본 논문에서 제안한 다중 문서 요약 모델과 개별 모듈의 우수성을 확인했다.

레이블 기반의 핵심 자질 학습을 통한 문서 범주화에서의 효과적인 전이학습 방법론

김균엽, 강상우

http://doi.org/10.5626/JOK.2022.49.3.214

전이학습을 이용한 자연어처리는 대용량의 일반적인 데이터를 이용하여 사전학습된 모델을 downstream task에서 사용함으로써 성능이 향상되었다. 하지만 사전학습에서 사용되는 데이터는 적용 영역과 무관한 데이터이기에 적용 영역에 특화된 자질이 아닌 일반적인 자질을 학습하는 문제점이 있다. 따라서 본 논문에서는 사전 학습 모델의 임베딩이 downstream task에 특화된 자질들을 학습하도록 유도한다. 제안 방법으로는 샘플링된 data pair의 대조 학습과 더불어 label embedding과의 대조 학습을 통해 downstream task의 label정보를 학습하는 방법을 제안한다. 제안 방법의 성능입증을 위해 문장 분류 데이터셋에 대한 실험을 진행하고 임베딩에 대한 PCA(Principal component analysis)와 K-means clustering을 통하여 downstream task의 자질들이 학습되었는지 정성평가를 진행한다.

MASS와 복사 및 커버리지 메커니즘과 길이 임베딩을 이용한 한국어 문서 요약

정영준, 이창기, 고우영, 윤한준

http://doi.org/10.5626/JOK.2022.49.1.25

문서 요약은 주어진 문서로부터 중요하고 핵심적인 정보를 포함하는 요약문을 만들어내는 기술로, sequence-to-sequence 모델을 사용한 end-to-end 방식의 생성 요약 모델이 주로 연구되고 있다. 최근에는 대용량 단일 언어 데이터 기반 사전학습 모델을 이용하여 미세조정하는 전이 학습 방법이 자연어 처리 분야에서 활발히 연구되고 있다. 본 논문에서는 MASS 모델에 복사 메커니즘 방법을 적용하고, 한국어 언어 생성을 위한 사전학습을 수행한 후, 이를 한국어 문서 요약에 적용하였다. 또한, 요약 모델 개선을 위해 커버리지 메커니즘과 길이 임베딩을 추가로 적용하였다. 실험 결과, MASS 모델에 복사 및 커버리지 메커니즘 방법을 적용한 한국어 문서 요약 모델이 기존 모델들보다 높은 성능을 보였고, 길이 임베딩을 통해 요약문의 길이를 조절할 수 있음을 보였다.

주제 어트리뷰트 모델을 이용한 주제 키워드 기반 한국어 문서 요약

윤수환, 김아영, 박성배

http://doi.org/10.5626/JOK.2021.48.6.688

문서 추상 요약은 요약 모델이 원문의 핵심 정보를 파악하여 새로운 요약문을 생성하는 작업이다. 이때 추상 요약 모델로 일반적인 Sequence-to-Sequence 모델을 많이 사용하였지만 여기에 핵심정보를 잘 표현하고 요약문에 반영하기 위해 주제(topic)을 넣어 요약문을 생성하는 주제 중심 요약(Topic centric summarization)을 하는 연구가 최근에 진행되고 있다. 그러나 기존의 방법은 주제 분포(Topic distribution)를 반영하여 문장을 생성하기 위해 모델을 처음부터 학습해야 하기 때문에 사전 학습 언어 모델의 장점을 살리기 어렵다. 본 논문에서는 사전 학습 언어 모델의 장점을 살리면서 주제 키워드를 요약문에 반영하여 주제 중심 요약을 할 수 있는 방법을 제시한다. 제안하는 주제 중심 요약 방법은 기존 조건부 언어 모델(Conditional Language Model)에서 연구되었던 PPLM (Plug and Play Language Model)의 어트리뷰트 모델을 문서 요약에서 사용되는 사전 학습 Sequence-to-Sequence 모델인 MASS에 적용하여 ‘주제 키워드 기반 요약문’을 생성하는 방법이다. 제안하는 방법은 별도의 추가 학습을 요구하지 않기 때문에 MASS의 언어 능력과 파인 튜닝으로 학습한 요약 능력을 그대로 사용함과 동시에 특정 키워드를 등장시켜 주제에서 벗어나지 않는 요약문을 생성할 수 있게 한다. 제안하는 방법의 우수성을 보이기 위해 BERT+Transformer 디코더를 사용한 모델, PPLM을 적용하지 않은 MASS 모델과 한국어 요약성능을 비교하였으며 평균적으로 ROUGE와 BERTScore 모두 성능이 향상되는 것을 확인할 수 있었다.

효과적인 음향잡음 제거를 위한 사전 훈련된 생성자를 사용하는 적대적 생성망

임경현, 조성배

http://doi.org/10.5626/JOK.2021.48.3.334

Speech enhancement GAN (SEGAN)은 딥러닝 모델 중 하나인 적대적 생성망을 기반으로 음향잡음을 제거하는데 좋은 성능을 보여주는 모델 중 하나이다. 하지만 매우 넓은 분포를 가지는 비정적 잡음을 하나의 생성자로 학습하는 과정에서 생성자는 쉽게 불안정해진다는 문제가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 기학습된 생성자를 활용한 적대학습 방법을 제안한다. 오토인코더와 동일한 방식으로 기학습된 생성자의 출력을 적대학습 생성자의 입력으로 사용함으로써, 일차적으로 축소된 데이터를 활용해 분포 매칭의 어려움을 완화시키고, 학습의 안정성을 높인다. 본 논문에서는 객관적으로 모델의 성능을 평가하기 위해 scale Invariant Signal to Noise Ratio (SI-SNR) 평가지표를 활용하였다. 실험결과 잡음 음성 대비 SI-SNR이 약 4.08 상승하여 제안 방법이 잡음을 제거하는 것에 유용함을 확인하였다.

MASS와 상대 위치 표현을 이용한 한국어 문서 요약

정영준, 황현선, 이창기

http://doi.org/10.5626/JOK.2020.47.9.873

언어 생성(language generation) 작업에서는 Sequence-to-Sequence 모델을 이용하여 자연어를 생성하는 딥러닝 기반의 모델이 활발히 연구되고 있으며, 기존에 문서에서 핵심 문장만 추출(extractive)하는 방식을 사용하였던 문서 요약 분야에서도 생성(abstractive) 요약 연구가 진행되고 있다. 최근에는 BERT와 MASS 같은 대용량 단일 언어 데이터 기반 사전학습(pre-training) 모델을 이용하여 미세조정(fine-tuning)하는 전이 학습(transfer learning) 방법이 자연어 처리 분야에서 주로 연구되고 있다. 본 논문에서는 MASS 모델을 이용하여 한국어 언어 생성을 위한 사전학습을 수행한 후 이를 한국어 문서 요약에 적용하였다. 실험 결과, MASS 모델을 이용한 한국어 문서 요약 모델이 기존 모델들보다 높은 성능을 보였고, 추가로 MASS 모델에 상대 위치 표현 방법을 적용하여 문서 요약 모델의 성능을 개선하였다.

부분단어와 품사 태깅 정보를 활용한 형태소 기반의 한국어 단어 벡터 생성

윤준영, 이재성

http://doi.org/10.5626/JOK.2020.47.4.395

단어 벡터는 단어 사이의 관계를 벡터 연산으로 가능하게 할 뿐 아니라, 상위의 신경망 프로그램의 사전학습 데이터로 많이 활용되고 있다. 영어 등의 언어와는 달리, 한국어는 어절, 형태소, 음절 및 자소 등으로 다양하게 분리할 수 있는 특성 때문에 영어 학습 모델들과는 다른 다양한 단어 벡터 학습 모델들이 연구되어 왔다. 본 연구에서는 한국어 단어 벡터를 학습하기 위한 단위로 우선 어절을 형태소로 분해하고, 이를 음절 및 자소의 부분단어로 분해하여 학습하는 방법을 제안한다. 또한 전처리된 형태소의 의미 및 구조 정보를 활용하기 위해 품사 태그 정보(Part Of Speech)를 학습에 반영하도록 한다. 성능 검증을 위해 단어 유추 평가 및 응용 프로그램 적용 평가를 해 본 결과, 맞춤법 오류가 적은 일반적인 문서에 대해, 형태소 단위로 자소 부분단어 처리를 하고 품사 태그를 추가했을 경우 다른 방법에 비해 우수함을 보였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr