검색 : [ keyword: answer extraction ] (1)

사전 학습된 Encoder-Decoder 모델 기반 질의응답 쌍 생성을 통한 기계 독해 학습 데이터 증강 기법

신현호, 최성필

http://doi.org/10.5626/JOK.2022.49.2.166

기계 독해 연구는 문서에서 질문에 대한 정답을 찾는 것으로 대규모 데이터가 필요하지만 개인 연구자나 소규모 연구 기관이 구축하는 것은 한계가 있다. 이에 본 논문은 사전 학습 언어모델을 활용한 기계 독해 데이터 증강 기법을 제안한다. 기계 독해 데이터 증강 기법은 질의응답 쌍 생성 모델과 데이터 검증 모델로 구성된다. 질의응답 쌍 생성 모델은 정답 추출 모델과 질문 생성 모델로 구성되며, 두 모델 모두 BART 모델을 미세 조정하여 구축하였다. 데이터 검증 모델은 증강 데이터의 신뢰성을 높이기 위해 별도로 추가하였으며, 증강 데이터의 활용 여부를 결정한다. 검증 모델은 ELECTRA 모델을 기계 독해 모델로 미세 조정하여 사용하였다. 증강 기법을 통한 모델 성능 개선을 확인하기 위해 KorQuAD v1.0 데이터에 증강 기법을 적용하였다. 실험 결과 기존 모델 대비 EM Score의 경우 최대 7.2 상승하였고 F1 Score는 최대 5.7 상승하는 유의미한 결과를 도출하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr