검색 : [ keyword: 사전학습 ] (13)

사전학습 언어모델의 토큰 단위 문맥 표현을 이용한 한국어 의존 구문분석

임준호, 김현기

http://doi.org/10.5626/JOK.2021.48.1.27

의존 구문분석은 문장 내 단어 사이의 의존관계 및 레이블을 인식하여 문장의 구조적 중의성을 해소하는 문제이다. 사전학습 언어모델 위에 추가적인 순환신경망(RNN)을 적용한 선행 연구들과 달리, 본 논문에서는 사전학습 언어모델의 자가집중 메커니즘을 최대한 활용하기 위하여 사후학습만을 이용한 의존 구문분석 방법을 제안하고, 성능 개선을 위하여 어절 사이의 상대거리 파라미터와 구분자 토큰 활용기법을 제안한다. TTA 표준 가이드라인 세종 구문분석 말뭉치를 평가결과 KorBERT_base 모델은 95.73% UAS, 93.39% LAS를, KorBERT_large 모델은 96.31% UAS, 94.17% LAS를 보였다. 이는 사전학습 언어모델을 사용하지 않은 기존 연구 대비 약 3% 이상의 성능 개선을 보인 결과이다. 다음으로 선행 연구의 어절-형태소 혼합 변환 말뭉치 평가 결과, KorBERT_base 모델은 94.19% UAS, KorBERT_large 모델은 94.76% UAS 성능을 보였다.

MASS와 상대 위치 표현을 이용한 한국어 문서 요약

정영준, 황현선, 이창기

http://doi.org/10.5626/JOK.2020.47.9.873

언어 생성(language generation) 작업에서는 Sequence-to-Sequence 모델을 이용하여 자연어를 생성하는 딥러닝 기반의 모델이 활발히 연구되고 있으며, 기존에 문서에서 핵심 문장만 추출(extractive)하는 방식을 사용하였던 문서 요약 분야에서도 생성(abstractive) 요약 연구가 진행되고 있다. 최근에는 BERT와 MASS 같은 대용량 단일 언어 데이터 기반 사전학습(pre-training) 모델을 이용하여 미세조정(fine-tuning)하는 전이 학습(transfer learning) 방법이 자연어 처리 분야에서 주로 연구되고 있다. 본 논문에서는 MASS 모델을 이용하여 한국어 언어 생성을 위한 사전학습을 수행한 후 이를 한국어 문서 요약에 적용하였다. 실험 결과, MASS 모델을 이용한 한국어 문서 요약 모델이 기존 모델들보다 높은 성능을 보였고, 추가로 MASS 모델에 상대 위치 표현 방법을 적용하여 문서 요약 모델의 성능을 개선하였다.

부분단어와 품사 태깅 정보를 활용한 형태소 기반의 한국어 단어 벡터 생성

윤준영, 이재성

http://doi.org/10.5626/JOK.2020.47.4.395

단어 벡터는 단어 사이의 관계를 벡터 연산으로 가능하게 할 뿐 아니라, 상위의 신경망 프로그램의 사전학습 데이터로 많이 활용되고 있다. 영어 등의 언어와는 달리, 한국어는 어절, 형태소, 음절 및 자소 등으로 다양하게 분리할 수 있는 특성 때문에 영어 학습 모델들과는 다른 다양한 단어 벡터 학습 모델들이 연구되어 왔다. 본 연구에서는 한국어 단어 벡터를 학습하기 위한 단위로 우선 어절을 형태소로 분해하고, 이를 음절 및 자소의 부분단어로 분해하여 학습하는 방법을 제안한다. 또한 전처리된 형태소의 의미 및 구조 정보를 활용하기 위해 품사 태그 정보(Part Of Speech)를 학습에 반영하도록 한다. 성능 검증을 위해 단어 유추 평가 및 응용 프로그램 적용 평가를 해 본 결과, 맞춤법 오류가 적은 일반적인 문서에 대해, 형태소 단위로 자소 부분단어 처리를 하고 품사 태그를 추가했을 경우 다른 방법에 비해 우수함을 보였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr