확률 기반 미등록 단어 분리 및 태깅

김보겸; 이재성

확률 기반 미등록 단어 분리 및 태깅

김보겸

이재성

43권 4호, pp. 430-436, 4월 2016

PDF

요약

형태소 분석시 나타나는 고유명사나 신조어 등의 미등록어에 대한 처리는 다양한 도메인의 문서 처리에 필수적이다. 이 논문에서는 3단계 확률 기반 형태소 분석에서 미등록어를 분리하고 태깅하기 위한 방법을 제시한다. 이 방법은 고유명사나 일반명사와 같은 개방어 뒤에 붙는 다양한 접미사를 분석하여 미등록 개방어를 추정할 수 있도록 했다. 이를 위해 형태소 품사 부착 말뭉치에서 자동으로 접미사 패턴을 학습하고, 확률 기반 형태소 분석에 맞도록 미등록 개방어의 분리 및 태깅 확률을 계산하는 방법을 제시하였다. 실험 결과, 제안한 방법은 새로운 미등록 용어가 많이 나오는 문서에서 미등록어 처리 성능을 크게 향상시켰다.

통계

2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.

논문 참조

[IEEE Style]

B. Kim and J. S. Lee, "Probabilistic Segmentation and Tagging of Unknown Words," Journal of KIISE, JOK, vol. 43, no. 4, pp. 430-436, 2016. DOI: .

[ACM Style]

Bogyum Kim and Jae Sung Lee. 2016. Probabilistic Segmentation and Tagging of Unknown Words. Journal of KIISE, JOK, 43, 4, (2016), 430-436. DOI: .

[KCI Style]

김보겸, 이재성, "확률 기반 미등록 단어 분리 및 태깅," 한국정보과학회 논문지, 제43권, 제4호, 430~436쪽, 2016. DOI: .

[Endnote/Zotero/Mendeley (RIS)] Download

[BibTeX] Download

Search

Journal of KIISE

ISSN : 2383-630X(Print)
ISSN : 2383-6296(Electronic)
KCI Accredited Journal

사무국

Tel. +82-2-588-9240
Fax. +82-2-521-1352
E-mail. chwoo@kiise.or.kr

정보과학회논문지

정보과학회논문지

확률 기반 미등록 단어 분리 및 태깅

Search

사무국