대용량 표준 말뭉치 구축을 위한 다수 형태소 분석 결과 통합 방법론 


47권  6호, pp. 596-602, 6월  2020
10.5626/JOK.2020.47.6.596


PDF

  요약

최근 한국어 정보처리를 위한 대용량 언어분석 표준 말뭉치(GS: Gold Standard Set)를 구축하고, 이를 공유 · 확산하기 위한 국가차원의 지원이 이뤄지고 있다. 본 연구는 이러한 말뭉치 구축 사업의 일환으로, 현재 국내에서 개발된 다양한 한국어 언어분석 모듈을 활용하여 공통 정답셋 구축을 위한 방법론을 제안하고자 한다. 특히, 대량의 학습셋을 구축하기 위해 다수의 모듈(N-modules)로부터 제시된 후보정답을 참조, 오류 형태를 분류하여 주요 유형을 반자동으로 보정함으로써 수작업을 최소화하였다. 본 연구에서는 형태소 분석 모듈 적용 결과를 정규화하여 통합 포맷인 U-POS를 기반으로 대용량 한국어 언어분석 표준 말뭉치를 구축하였다. 본 연구를 통해 348,229 문장, 총 9,455,930 어절이 한국어 표준 말뭉치로 구축되었으며, 이는 차후에 한국어 정보처리를 위한 기초 학습자원으로 활용될 수 있다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

T. Kim, P. Ryu, H. Kim, H. Oh, "Unified Methodology of Multiple POS Taggers for Large-scale Korean Linguistic GS Set Construction," Journal of KIISE, JOK, vol. 47, no. 6, pp. 596-602, 2020. DOI: 10.5626/JOK.2020.47.6.596.


[ACM Style]

Tae-Young Kim, Pum-Mo Ryu, Hansaem Kim, and Hyo-Jung Oh. 2020. Unified Methodology of Multiple POS Taggers for Large-scale Korean Linguistic GS Set Construction. Journal of KIISE, JOK, 47, 6, (2020), 596-602. DOI: 10.5626/JOK.2020.47.6.596.


[KCI Style]

김태영, 류법모, 김한샘, 오효정, "대용량 표준 말뭉치 구축을 위한 다수 형태소 분석 결과 통합 방법론," 한국정보과학회 논문지, 제47권, 제6호, 596~602쪽, 2020. DOI: 10.5626/JOK.2020.47.6.596.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr