디지털 라이브러리[ 검색결과 ]
검색 : [ author: Myungji Kim ] (1)
KorQuAD 2.0: 웹문서 기계독해를 위한 한국어 질의응답 데이터셋
http://doi.org/10.5626/JOK.2020.47.6.577
KorQuAD 2.0은 총 100,000+ 쌍으로 구성된 한국어 질의응답 데이터셋이다. 기존 질의응답 표준 데이터인 KorQuAD 1.0과의 차이점은 크게 세가지가 있는데 첫 번째는 주어지는 지문이 한두 문단이 아닌 위키백과 한 페이지 전체라는 점이다. 두 번째로 지문에 표와 리스트도 포함되어 있기 때문에 HTML tag로 구조화된 문서에 대한 이해가 필요하다. 마지막으로 답변이 단어 혹은 구의 단위뿐 아니라 문단, 표, 리스트 전체를 포괄하는 긴 영역이 될 수 있다. Baseline 모델로 공개된 구글 BERT를 활용하여 F1 스코어 46.0%의 성능을 확인하였다. 이는 사람의 F1 점수 85.7%에 비해 매우 낮은 점수로, 본 데이터가 도전적인 과제임을 알 수 있다. 추가적으로 답을 찾을 수 없는 경우에 대한 학습 데이터 증강 방식을 통해 성능을 높였다. 본 데이터의 공개를 통해 평문에 국한되어 있던 질의응답의 대상을 다양한 길이와 형식을 가진 과제로 확장하고자 한다.