검색 : [ author: Jae-Hoon Kim ] (3)

자동 편집을 이용한 개체명 말뭉치 확장

김재균, 김재훈

http://doi.org/10.5626/JOK.2023.50.1.11

자연언어처리 분야에서 말뭉치는 기계학습이나 심층학습을 위한 필수 자원이다. 한국어 개체명 말뭉치의 경우, 미국이나 일본이나 중국 등에 비해 잘 정제된 개체명 말뭉치가 부족한 실정이다. 현재 수행되고 있는 대부분의 개체명 말뭉치 구축 작업은 수작업이나 반자동으로 진행되고 있으며 이 경우에는 많은노력과 비용이 소요된다. 본 논문에서는 새롭게 말뭉치를 구축하는 것이 아니라 기존에 존재하는 적은 양의 말뭉치를 자동으로 확장하는 방법을 제안한다. 제안된 방법은 기존 말뭉치에 포함된 단어를 자동 편집(대체(substitution), 삽입(insertion), 삭제(deletion))을 이용해서 말뭉치를 확장한다. 단순한 단어를 편집하는 것은 확장된 말뭉치가 부자연스럽거나 다양성이 다소 부족할 수 있으므로 확률 표집을 적용하여 이 문제를 해결하였다. 본 논문에서는 확장된 말뭉치를 이용해서 개체명 인식기에서 성능이 향상됨을 확인할 수 있었다.

자원부족 환경에 적합한 BIT 개체명 표기법

윤호, 김창현, 천민아, 박호민, 남궁영, 최민석, 김재균, 김재훈

http://doi.org/10.5626/JOK.2021.48.3.293

개체명 인식이란 주어진 문서에서 개체명의 범위를 찾고 개체명을 분류하는 것이다. 많은 개체명은 하나 이상의 단어로 구성되므로 대부분의 개체명 학습말뭉치는 BIO 표기법으로 표현된다. BIO 표기법은 개체명이 시작되는 단어의 표지에 “B-”를 붙이고, 개체명에 포함된 그 외의 단어의 표지에는 “I-”를 붙이며, 개체명과 개체명 사이의 모든 단어의 표지를 “O”로 간주하는 방법이다. 이 방법은 약 90% 이상의 단어가 “O” 표지를 가지므로 “O” 표지에 대한 혼잡도가 높아지는 문제와 불균형학습 문제가 야기된다. 본 논문에서는 BIO 표기법 대신에 BIT 표기법을 제안한다. BIT 표기법이란 BIO 표기법에서 “O” 표지를 “T” 표지로 변환하는 방법이며 본 논문에서 “T” 표지는 품사 표지를 나타낸다. 실험을 통해서 단어 표상의 의미 투영도가 높지 않을 경우, 즉 상대적으로 적은 양의 학습자료로 단어 표상을 학습했을 경우에는 BIT 표기법이 BIO 표기법보다 좋은 성능을 보였다.

한국어 말덩이 정의와 구묶음: 한국어 말덩이 부착 말뭉치와 Bi-LSTM/CRFs 모델을 활용하여

남궁영, 김창현, 천민아, 박호민, 윤호, 최민석, 김재균, 김재훈

http://doi.org/10.5626/JOK.2020.47.6.587

한국어 의존구조를 분석하는 데에는 몇 가지 고질적인 문제가 있다. 그 중 하나는 중심어 위치문제이고 다른 하나는 구성성분의 단위 문제이다. 이와 같은 문제는 구묶음을 수행함으로써 어느 정도는 해결된다. 구묶음은 형태소 분석과 구문분석의 중간 단계에 위치하면서 말덩이라 하는 구성성분을 찾는 과정이다. 본 논문에서는 한국어 말덩이의 정의와 의의를 살펴보고 한국어 말덩이 부착 말뭉치를 구축한다. 또한 본 논문에서는 구축된 말뭉치와 Bi-LSTM/CRFs를 이용한 한국어 구묶음을 제안한다. 실험을 통해서 제안된 구묶음 모델은 98.54%의 F1점수를 보여 실용적으로 사용할 수 있을 것으로 판단된다. 또한 다양한 입력 표상에 따른 성능을 분석하여 fastText가 가장 좋은 성능을 보였다. 또한 오류 분석을 통해 제안된 시스템의 문제를 분석하여 향후 시스템 개선에 적극 활용할 계획이다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr