디지털 라이브러리[ 검색결과 ]
KorSciQA 2.0: 과학기술 분야 한국어 논문 기계독해를 위한 질의응답 데이터셋
http://doi.org/10.5626/JOK.2022.49.9.686
최근 다양한 질의응답 공개 과제를 통해 기계독해 시스템의 성능은 향상되고 있으며, 더욱 지능화된 기계독해 시스템의 학습을 위해 여러 텍스트 단락과 지문을 포괄적으로 이해하고 이산적인 추론을 해야 하는 도전적인 과제가 공개되고 있다. 그러나 한국어 학술정보를 이해하기 위한 복합추론 목적 질의 응답 데이터셋의 부재로 인해 학술 논문에 대한 기계독해 연구는 활발히 이루어지지 않고 있다. 본 논문에서는 한국어 학술 논문의 전문을 대상으로 난이도를 일반, 하, 상으로 나누어 기계독해 시스템의 변별력을 확인할 수 있는 질의응답 데이터인 KorSciQA 2.0을 구축하였으며, KorSciQA 2.0을 구축하기 위한 방법론과 프로세스, 그리고 시스템을 제안하였다. KorSciQA 2.0에 대한 기계독해 성능 평가 실험 결과, 과학기술분야 도메인에 대한 한국어 기반 BERT 모델인 KorSciBERT 모델을 기반으로 미세 조정(Fine-tuning)하였을 때, F1 성능이 80.76%로 가장 높은 성능을 보였다.
학술논문 PDF에 대한 딥러닝 기반의 메타데이터 추출 방법 연구
http://doi.org/10.5626/JOK.2019.46.7.644
최근 학술문헌의 수가 빠르게 증가함에 따라, 최신 연구 동향 및 정보를 얻기 위한 학술데이터 베이스 서비스의 필요성이 대두되었다. 학술데이터베이스 구축을 위한 메타데이터 추출 자동화 서비스가 연구되었으나, 대부분의 학술문헌 원문은 PDF로 구성되어 자동적인 정보 추출이 쉽지 않은 문제가 있다. 이에 본 연구는 학술문헌 PDF에 대한 메타데이터 자동 추출 방법을 제안한다. 먼저 학술문헌 PDF를 XML 형식으로 변환한 이후, XML 마크업 토큰 내의 좌표, 크기, 넓이와 텍스트 자질을 추출하여 벡터 형태로 구성한다. 추출된 자질 정보를 연속적 레이블링에 특화된 딥러닝 모델인 Bidirectional GRU-CRF를 활용하여 분석하고 메타데이터를 추출한다. 본 연구에서는 국내 학술지 중 10종을 선정하여 메타데이터 추출을 위한 학습집합을 구축하고, 제안한 방법론을 활용하여 실험하였다. 9종의 메타데이터에 대한 추출실험 결과, 88.27%의 정확도와 84.39%의 F1 성능을 얻었다.