검색 : [ keyword: 문맥의존 철자오류 ] (3)

임베딩 기법을 이용한 문맥의존 철자오류 교정 성능의 비교

이정훈, 김민호, 권혁철

http://doi.org/10.5626/JOK.2020.47.2.147

본 논문에서는 임베딩(embedding) 기법들을 이용하여 문맥의존 철자오류 교정에 적용하고 각 기법의 성능을 비교한다. 임베딩 학습을 통해 얻은 단어의 벡터를 사용하여 교정 대상 단어와 주변 문맥단어 간의 거리(distance)를 비교하여 교정한다. 논문에서는 학습 말뭉치(corpus)에 포함되어 있지 않은 단어(out of vocabulary)의 처리와 교정 단어의 주변 문맥 정보를 잘 반영하여 교정 성능을 높이려 한다. 교정에 사용하는 임베딩 기법의 종류는 단어 기반의 임베딩(word embeding)과 문맥정보를 반영하는 임베딩(contextual embedding)으로 나뉜다. 본 논문에서는 앞서 제시한 두 가지 향상 목표를 초점으로 임베딩 기법을 적용하여 교정실험을 하였으며, 신용 있는 교정 성능을 얻을 수 있었다.

동적 윈도우를 갖는 조건부확률 모델을 이용한 한국어 문맥의존 철자오류 교정 규칙의 재현율 향상

최현수, 권혁철, 윤애선

http://doi.org/

한국어 맞춤법 검사기가 교정하는 오류어의 유형은 크게 단순 철자오류와 문맥의존 철자오류로 구분할 수 있다. 이 중 문맥의존 철자오류는 어절(word)단위로 봤을 때는 올바르지만, 문맥을 고려하였을 때 오류가 되는 유형으로, 교정 난도가 매우 높다. 문맥의존 철자오류는 글을 쓰는 사람들도 자주 저지르는 오류이므로, 이를 잘 검색하여 정확하게 교정하는 것이 맞춤법 검사기의 사용자가 갖는 신뢰도에 큰 영향을 미친다. 높은 정확도가 매우 중요하므로, 문맥의존 철자오류의 교정 방법은 대부분 규칙에 기반한다. 반대 급부로 재현율이 매우 낮다는 단점을 갖는다. 문맥의존 철자오류의 교정에서 재현율을 높이기 위한 방법은 크게 언어지식을 이용하여 규칙을 일반화하는 방법과 통계 정보에 기반을 하여 공기 어휘의 제약 조건을 확장하는 방법으로 나뉠 수 있다. 기존 연구는 언어지식을 이용하여 규칙을 일반화하는 다양한 방식을 연구했으나, 최고 성능이 평균 정확도 95.19%, 평균 재현율 37.56%을 보였다. 본 논문에서는 통계정보에 기반한 규칙의 확장 방식을 제안한다. 동적 윈도우를 갖는 조건부확률 모델을 이용한 방법이며, 최고 성능은 평균 정확도 97.23%, 평균 재현율 50.50%을 보여주었다.

어절 N-gram을 이용한 문맥의존 철자오류 교정

김민호, 권혁철, 최성기

http://doi.org/

문맥의존 철자오류의 교정 방법은 크게 규칙을 이용한 방법과 통계 정보에 기반을 둔 방법으로 나뉘며, 이중 통계적 오류 교정 방법을 중심으로 연구가 진행되었다. 통계적 오류 방법은 문맥의존 철자오류 문제를 어의 중의성 해소 문제로 간주한 방법으로서, 교정 대상 어휘와 대치 후보 어휘로 이루어진 교정 어휘 쌍을 문맥에 따라 분류하는 방법이다. 본 논문에서는 본 연구진의 기존 연구 결과인 교정어휘 쌍을 이용한 확률 모델의 성능 향상을 위해 어절 n-gram 모델을 기존 모델에 결합하는 방법을 제안한다. 본 논문에서 제안하는 결합 모델은 각 모델을 통해 계산된 문장의 확률을 보간(interpolation)하는 방법과 각각의 모델을 차례대로 적용하는 방법이다. 본 논문에서 제안한 두 가지 결합 모델 모두 기존 모델이나 어절 n-gram만 이용한 모델보다 높은 정확도와 재현율을 보인다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr