검색 : [ author: CheolYoung Ock ] (2)

한국어 어휘 의미망을 활용한 CRF 모델 기반 개체명 인식

박서연, 옥철영

http://doi.org/10.5626/JOK.2021.48.5.556

개체명 인식은 주어진 문장 내의 고유한 의미가 있는 단어들을 미리 정의된 개체의 범주로 분류하는 작업이다. 최근 딥러닝 네트워크 혹은 언어 모델을 이용한 개체명 인식 연구들이 높은 성능을 보였지만 이러한 모델은 고성능의 컴퓨팅 파워가 요구되며 학습 모델의 속도가 느려 아직은 실용성이 낮다는 문제가 있다. 본 논문에서는 실용성을 목적으로 처리 속도와 정확률을 모두 고려하여 기계학습 방식의 CRF를 기반으로 하여 의미 자질과 구문적 자질을 추가한 개체명 인식 시스템을 제안한다. 한국어 어휘 의미망(UWordMap)을 활용하여 사람의 지식을 기반으로 하여 의미 자질인 상위어, 최상위어 정보와 구문적 자질인 의존관계와 격조사 정보를 학습 자질로 추가하고 평가하였다. 실험 결과, F1 score 기준 90.54% 포인트의 성능과 초당 약 1,461 문장을 처리하였다.

의미 추상화를 이용한 전이 기반 한국어 의존관계 분석 시스템

정충선, 신준철, 이주상, 옥철영

http://doi.org/10.5626/JOK.2019.46.11.1174

기존 학습기반의 의존관계 연구는 형태소의 표층형과 품사 태그를 조합하여 학습 자질로 사용한다. 품사 태그의 경우 재현율이 높아 자질로 사용하기 적합하지만 품사 태그만으로 의존관계의 분석 정확률을 높이는 데는 한계가 있다. 표층형의 경우 표층형이 재현될 경우 높은 의존관계 정확률을 보이지만 품사 태그에 비하여 낮은 재현율을 보인다. 본 논문에서는 형태소의 표층형 재현율을 높이기 위해 어휘의미망(UWordMap)을 활용하여 명사의 표층형을 의미추상화하여 이를 자질로 사용하는 전이 기반 의존관계 분석방법을 제안한다. 명사의 표층형 의미추상화를 자질로 사용했을 때, 기존 표층형 자질만을 사용하였을 때보다 의존관계 분석 정확률이 최대 7.55% 상승하였다. 의미추상화 자질을 포함한 어절 단위, 형태소 단위, 음절 단위 자질을 모두 사용할 경우 90.75% 의존관계 분석 정확률을 보였고, 초당 562 문장의 학습 속도와 초당 631문장 의존관계 분석 속도를 보여 제안한 방법이 실용적으로 사용할 수 있을 것으로 판단된다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr