검색 : [ keyword: 한국어 코퍼스 ] (1)

대용량 표준 말뭉치 구축을 위한 다수 형태소 분석 결과 통합 방법론

김태영, 류법모, 김한샘, 오효정

http://doi.org/10.5626/JOK.2020.47.6.596

최근 한국어 정보처리를 위한 대용량 언어분석 표준 말뭉치(GS: Gold Standard Set)를 구축하고, 이를 공유 · 확산하기 위한 국가차원의 지원이 이뤄지고 있다. 본 연구는 이러한 말뭉치 구축 사업의 일환으로, 현재 국내에서 개발된 다양한 한국어 언어분석 모듈을 활용하여 공통 정답셋 구축을 위한 방법론을 제안하고자 한다. 특히, 대량의 학습셋을 구축하기 위해 다수의 모듈(N-modules)로부터 제시된 후보정답을 참조, 오류 형태를 분류하여 주요 유형을 반자동으로 보정함으로써 수작업을 최소화하였다. 본 연구에서는 형태소 분석 모듈 적용 결과를 정규화하여 통합 포맷인 U-POS를 기반으로 대용량 한국어 언어분석 표준 말뭉치를 구축하였다. 본 연구를 통해 348,229 문장, 총 9,455,930 어절이 한국어 표준 말뭉치로 구축되었으며, 이는 차후에 한국어 정보처리를 위한 기초 학습자원으로 활용될 수 있다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr