검색 : [ keyword: Morphological Analysis ] (11)

어절 정보를 활용한 비자동회귀 한국어 형태소 분석

조성민, 송현제

http://doi.org/10.5626/JOK.2023.50.8.653

한국어 형태소 분석이란 주어진 문장을 형태소 원형으로 복원하고 품사 태그를 부착하는 태스크이다. 형태소 분석은 다른 자연어 처리 태스크의 전처리 단계로서 활용되기 때문에 빠르고 정확하게 분석되어야 한다. 최근 학습 기반 한국어 형태소 분석기들은 인코더-자동회귀 디코더를 활용하여 순차적으로 형태소 분석 결과들을 생성하여 정확한 결과를 생성하지만 생성 속도가 느리다는 단점이 있다. 본 논문에서는 비자동회귀 한국어 형태소 분석기를 제안한다. 제안한 한국어 형태소 분석기는 인코더-두개의 비자동 회귀 디코더로 구성되어 있으며, 각 디코더가 형태소 및 품사 시퀀스를 각각 생성함과 동시에 디코더-디코더 크로스 어텐션으로 형태소와 품사가 서로 정보를 주고 받아 정확한 결과를 생성하도록 한다. 또한, 어절 정보를 활용하여 형태소 분석 결과 길이를 예측하고 비자동회귀 디코더에 길이를 제공해 형태소 분석 성능을 향상시킨다. 실험 결과, 제안한 방법은 단순 비자동회귀 디코더 기반 형태소 분석기들보다 좋은 결과를 얻었으며, 자동회귀 디코더 기반 분석기보다 비슷한 성능에 최대 14.76배 빠르게 분석함을 보인다.

공유계층을 이용한 형태소 분석과 개체명 인식 통합 모델

김홍진, 박성식, 김학수

http://doi.org/10.5626/JOK.2021.48.2.167

한국어 형태소 분석은 형태소 분석, 품사 태깅 과정으로 나뉜다. 형태소 분석 과정에서 형태소와 품사 후보 쌍을 추출하고, 품사 태깅 과정에서는 추출된 후보 중 문맥에 알맞은 형태소와 품사를 결정한다. 개체명 인식은 문장 내에서 인명, 지명, 기관명, 날짜, 시간 등과 같이 고유한 의미를 갖는 단어를 찾아 개체명을 부착하는 기술이다. 개체명 인식과 형태소 분석 연구는 주로 독립적으로 수행되며, 많은 개체명 인식 연구에서 품사 정보를 사용한다. 이 과정에서 형태소 분석의 오류가 개체명 인식에 치명적인 오류로 전파된다. 본 논문에서는 오류 전파를 최소화하기 위해 통합 모델을 제안한다. 형태소 분석기의 오류를 줄이기 위해 순차적 레이블 부착 문제에 효과적인 레이블 주의 집중 네트워크를 활용한다. 실험 결과, 개체명 인식과 형태소 분석의 단일 모델보다 통합 모델의 성능이 더 높음을 보였다. 또한 기존의 통합모델 보다 레이블 주의 집중 네트워크를 적용한 제안 모델이 더 높은 성능을 보였다.

대용량 표준 말뭉치 구축을 위한 다수 형태소 분석 결과 통합 방법론

김태영, 류법모, 김한샘, 오효정

http://doi.org/10.5626/JOK.2020.47.6.596

최근 한국어 정보처리를 위한 대용량 언어분석 표준 말뭉치(GS: Gold Standard Set)를 구축하고, 이를 공유 · 확산하기 위한 국가차원의 지원이 이뤄지고 있다. 본 연구는 이러한 말뭉치 구축 사업의 일환으로, 현재 국내에서 개발된 다양한 한국어 언어분석 모듈을 활용하여 공통 정답셋 구축을 위한 방법론을 제안하고자 한다. 특히, 대량의 학습셋을 구축하기 위해 다수의 모듈(N-modules)로부터 제시된 후보정답을 참조, 오류 형태를 분류하여 주요 유형을 반자동으로 보정함으로써 수작업을 최소화하였다. 본 연구에서는 형태소 분석 모듈 적용 결과를 정규화하여 통합 포맷인 U-POS를 기반으로 대용량 한국어 언어분석 표준 말뭉치를 구축하였다. 본 연구를 통해 348,229 문장, 총 9,455,930 어절이 한국어 표준 말뭉치로 구축되었으며, 이는 차후에 한국어 정보처리를 위한 기초 학습자원으로 활용될 수 있다.

신조어 및 띄어쓰기 오류에 강인한 시퀀스-투-시퀀스 기반 한국어 형태소 분석기

최병서, 이익훈, 이상구

http://doi.org/10.5626/JOK.2020.47.1.70

한국어 커뮤니티 등에서 수집되는 인터넷 텍스트 데이터를 형태소 분석하기 위해서는, 띄어쓰기 오류가 있는 문장에서도 정확히 형태소 분석을 해내야 하고, 신조어 등의 사전 외 어휘 입력에 대한 원형복원 성능이 충분해야 한다. 그러나 기존 한국어 형태소분석기는 원형복원에 사전 또는 규칙 기반 알고리즘을 사용하는 경우가 많다. 본 논문에서는 시퀀스-투-시퀀스 모델을 기반으로 띄어쓰기 문제와 신조어 문제를 효과적으로 처리할 수 있는 한국어 형태소 분석기 모델을 제안한다. 본 모델은 사전을 사용하지 않고, 규칙 기반 전처리를 최소화한다. 일반적으로 사용하는 음절 외에도 음절 바이그램과 자소를 입력자질로 같이 사용하며, 공백을 제거한 데이터를 학습 데이터로 같이 사용한다. 제안 모델은 세종 말뭉치를 이용한 실험에서 사전을 사용하지 않는 기존 형태소 분석기에 비해 뛰어난 성능이 나왔다. 띄어쓰기가 없는 데이터셋 및 인터넷에서 직접 수집한 데이터셋에 대해서도 높은 성능이 나오는 것을 확인하였다.

Bi-LSTM 기반 감성분석을 위한 대용량 학습데이터 자동 생성 방안

최민성, 온병원

http://doi.org/10.5626/JOK.2019.46.8.800

딥러닝을 이용한 감성분석에서는 감성이 레이블 된 많은 양의 학습데이터가 필요하다. 그러나 사람이 직접 감성을 레이블 하는 것은 시간과 비용에 제약이 있고 많은 데이터에서 감성분석에 적합한 충분한 양의 데이터를 수집하는 것은 쉽지 않다. 본 논문에서는 이러한 문제점을 해결하기 위해 기존의 감성사전을 활용하여 감성점수를 매긴 후 감성 변환 요소가 존재하면 의존 구문 분석 및 형태소 분석을 수행해 감성점수를 재설정하여 감성이 레이블 된 대용량 학습데이터를 자동 생성하는 방안을 제안한다. 감성변환 요소로는 감성 반전, 감성 활성화, 감성 비활성화가 있으며 감성점수가 높은 Top-k의 데이터를 추출하였다. 실험 결과 수작업에 비해 짧은 시간에 대용량의 학습데이터를 생성하였으며 학습데이터의 양이 증가함에 따라 딥러닝의 성능이 향상됨을 확인하였다. 그리고 감성사전만을 사용한 모델의 정확도는 80.17%, 자연어처리 기술을 추가한 제안 모델의 정확도는 89.17%로 9%의 정확도 향상을 보였다.

Sequence-to-sequence 기반 한국어 형태소 분석 및 품사 태깅

이건일, 이의현, 이종혁

http://doi.org/

기존의 전통적인 한국어 형태소 분석 및 품사 태깅 방법론은 먼저 형태소 후보들을 생성한 뒤 수많은 조합에서 최적의 확률을 가지는 품사 태깅 결과를 구하는 두 단계를 거치며 추가적으로 형태소의 접속 사전, 기분석 사전 및 원형복원 사전 등을 필요로 한다. 본 연구는 기존의 두 단계 방법론에서 벗어나 심층학습 모델의 일종인 sequence-to-sequence 모델을 이용하여 한국어 형태소 분석 및 품사 태깅을 추가 언어자원에 의존하지 않는 end-to-end 방식으로 접근하였다. 또한 형태소 분석 및 품사 태깅 과정은 어순변화가 일어나지 않는 특수한 시퀀스 변환과정이라는 점을 반영하여 음성인식분야에서 주로 사용되는 합성곱 자질을 이용하였다. 세종말뭉치에 대한 실험결과 합성곱 자질을 사용하지 않을 경우 97.15%의 형태소 단위 f1-score, 95.33%의 어절단위 정확도, 60.62%의 문장단위 정확도를 보여주었고, 합성곱 자질을 사용할 경우 96.91%의 형태소 단위 f1-score, 95.40%의 어절단위 정확도, 60.62%의 문장단위 정확도를 보여주었다.

확률 기반 미등록 단어 분리 및 태깅

김보겸, 이재성

http://doi.org/

형태소 분석시 나타나는 고유명사나 신조어 등의 미등록어에 대한 처리는 다양한 도메인의 문서 처리에 필수적이다. 이 논문에서는 3단계 확률 기반 형태소 분석에서 미등록어를 분리하고 태깅하기 위한 방법을 제시한다. 이 방법은 고유명사나 일반명사와 같은 개방어 뒤에 붙는 다양한 접미사를 분석하여 미등록 개방어를 추정할 수 있도록 했다. 이를 위해 형태소 품사 부착 말뭉치에서 자동으로 접미사 패턴을 학습하고, 확률 기반 형태소 분석에 맞도록 미등록 개방어의 분리 및 태깅 확률을 계산하는 방법을 제시하였다. 실험 결과, 제안한 방법은 새로운 미등록 용어가 많이 나오는 문서에서 미등록어 처리 성능을 크게 향상시켰다.

기분석사전과 기계학습 방법을 결합한 음절 단위 한국어 품사 태깅

이충희, 임준호, 임수종, 김현기

http://doi.org/

본 논문은 음절 단위 한국어 품사 태깅 방법의 성능 개선을 위해 기분석사전과 기계학습 방법을 결합하는 방법을 제안한다. 음절 단위 품사 태깅 방법은 형태소분석을 수행하지 않고 품사 태깅만을 수행하는 방법이며, 순차적 레이블링(Sequence Labeling) 문제로 형태소 태깅 문제를 접근한다. 본 논문에서는 순차적 레이블링 기반 음절 단위 품사 태깅 방법의 전처리 단계로 품사 태깅말뭉치와 국어사전으로부터 구축된 복합명사 기분석사전과 약 1천만 어절의 세종 품사 태깅말뭉치로부터 자동 추출된 어절 사전을 적용함으로써 품사 태깅 성능을 개선시킨다. 성능 평가를 위해서 약 74만 어절의 세종 품사 태깅말 뭉치로부터 67만 어절을 학습 데이터로 사용하고 나머지 7만 4천 어절을 평가셋으로 사용하였다. 기계학습 방법만을 사용한 경우에 96.4%의 어절 정확도를 보였으며, 기분석사전을 결합한 경우에는 99.03%의 어절 정확도를 보여서 2.6%의 성능 개선을 달성하였다. 퀴즈 분야의 평가셋으로 실험한 경우에도 기계학습 엔진은 96.14% 성능을 보인 반면, 하이브리드 엔진은 97.24% 성능을 보여서 제안 방법이 다른 분야에도 효과적임을 확인하였다.

딥 러닝을 이용한 한국어 형태소의 원형 복원 오류 수정

황현선, 이창기

http://doi.org/

한국어 형태소 분석은 교착어 특성상 난이도가 높은 작업이다. 그 중에서 형태소의 원형 복원작업은 규칙이나 기분석 사전 정보 등을 활용하는 방법이 주로 연구되었다. 그러나 이러한 방법들은 어휘수준의 문맥 정보를 보지 못하기 때문에 원형 복원에 한계가 있다. 본 논문에서는 최근 자연어처리에 연구되고 있는 기계학습 방법인 딥 러닝(deep learning)을 사용하여 형태소의 원형 복원 문제의 해결을 시도하였다. 문맥 정보를 보기 위해 단어 표현(word embedding)을 사용하여 기존의 방법들 보다 높은 성능을 보였다. 실험 결과, ‘들/VV’과 ‘듣/VV’의 복원 문제에 대해서 97.97%로 기존의 자연어처리에 쓰이는 기계학습 방법 중 하나인 SVM(Support Vector Machine)의 96.22% 보다 1.75% 높은 성능을 보였다.

말뭉치와 형태소 분석기를 활용한 한국어 자동 띄어쓰기

심광섭

http://doi.org/

본 논문에서는 띄어쓰기가 전혀 되어 있지 않은 문자열을 입력 받아 말뭉치에서 추출한 어절정보를 이용하여 자동 띄어쓰기를 해 주는 방법론을 제안한다. 형태소 분석기도 사용되나 오류 수정이라는 제한적인 용도로만 사용된다. 성능 평가를 위해 1,000만 어절 규모의 세종 말뭉치에서 순수 한글 585만 어절을 발췌하여 10 개의 세트로 나누고 10 배수 교차 검증을 실시한 결과 98.06%의 음절 정확도와 94.15%의 어절 재현율을 얻었다. 또한, 개인용 컴퓨터에서 초당 25만 어절, 1.8 MB의 문서를 처리할 수 있을 정도로 빠르다. 제안된 방법의 정확도나 재현율은 어절 사전의 크기에 영향을 받기 때문에 보다 큰 말뭉치로 어절 사전을 구축하면 성능이 더욱 향상될 것으로 기대된다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr