KorSciQA 2.0: 과학기술 분야 한국어 논문 기계독해를 위한 질의응답 데이터셋 


49권  9호, pp. 686-695, 9월  2022
10.5626/JOK.2022.49.9.686


PDF

  요약

최근 다양한 질의응답 공개 과제를 통해 기계독해 시스템의 성능은 향상되고 있으며, 더욱 지능화된 기계독해 시스템의 학습을 위해 여러 텍스트 단락과 지문을 포괄적으로 이해하고 이산적인 추론을 해야 하는 도전적인 과제가 공개되고 있다. 그러나 한국어 학술정보를 이해하기 위한 복합추론 목적 질의 응답 데이터셋의 부재로 인해 학술 논문에 대한 기계독해 연구는 활발히 이루어지지 않고 있다. 본 논문에서는 한국어 학술 논문의 전문을 대상으로 난이도를 일반, 하, 상으로 나누어 기계독해 시스템의 변별력을 확인할 수 있는 질의응답 데이터인 KorSciQA 2.0을 구축하였으며, KorSciQA 2.0을 구축하기 위한 방법론과 프로세스, 그리고 시스템을 제안하였다. KorSciQA 2.0에 대한 기계독해 성능 평가 실험 결과, 과학기술분야 도메인에 대한 한국어 기반 BERT 모델인 KorSciBERT 모델을 기반으로 미세 조정(Fine-tuning)하였을 때, F1 성능이 80.76%로 가장 높은 성능을 보였다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

H. Kong, H. Yoon, M. Hyun, H. Lee, J. Seol, "KorSciQA 2.0: Question Answering Dataset for Machine Reading Comprehension of Korean Papers in Science & Technology Domain," Journal of KIISE, JOK, vol. 49, no. 9, pp. 686-695, 2022. DOI: 10.5626/JOK.2022.49.9.686.


[ACM Style]

Hyesoo Kong, Hwamook Yoon, Mihwan Hyun, Hyejin Lee, and Jaewook Seol. 2022. KorSciQA 2.0: Question Answering Dataset for Machine Reading Comprehension of Korean Papers in Science & Technology Domain. Journal of KIISE, JOK, 49, 9, (2022), 686-695. DOI: 10.5626/JOK.2022.49.9.686.


[KCI Style]

공혜수, 윤화묵, 현미환, 이혜진, 설재욱, "KorSciQA 2.0: 과학기술 분야 한국어 논문 기계독해를 위한 질의응답 데이터셋," 한국정보과학회 논문지, 제49권, 제9호, 686~695쪽, 2022. DOI: 10.5626/JOK.2022.49.9.686.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr