디지털 라이브러리[ 검색결과 ]
자동 편집을 이용한 개체명 말뭉치 확장
http://doi.org/10.5626/JOK.2023.50.1.11
자연언어처리 분야에서 말뭉치는 기계학습이나 심층학습을 위한 필수 자원이다. 한국어 개체명 말뭉치의 경우, 미국이나 일본이나 중국 등에 비해 잘 정제된 개체명 말뭉치가 부족한 실정이다. 현재 수행되고 있는 대부분의 개체명 말뭉치 구축 작업은 수작업이나 반자동으로 진행되고 있으며 이 경우에는 많은노력과 비용이 소요된다. 본 논문에서는 새롭게 말뭉치를 구축하는 것이 아니라 기존에 존재하는 적은 양의 말뭉치를 자동으로 확장하는 방법을 제안한다. 제안된 방법은 기존 말뭉치에 포함된 단어를 자동 편집(대체(substitution), 삽입(insertion), 삭제(deletion))을 이용해서 말뭉치를 확장한다. 단순한 단어를 편집하는 것은 확장된 말뭉치가 부자연스럽거나 다양성이 다소 부족할 수 있으므로 확률 표집을 적용하여 이 문제를 해결하였다. 본 논문에서는 확장된 말뭉치를 이용해서 개체명 인식기에서 성능이 향상됨을 확인할 수 있었다.
워드 임베딩과 유의어를 활용한 단어 의미 범주 할당
http://doi.org/10.5626/JOK.2017.44.9.946
의미역 결정은 서술어와 논항들 사이의 의미 관계를 결정하는 문제이다. 의미역 결정을 위해 의미 논항 역할 정보와 의미 범주 정보를 사용해야 한다. 세종 전자사전은 의미역을 결정하는데 사용한 격틀 정보가 포함되어 있다. 본 논문에서는 워드 임베딩과 유의어를 활용하여 세종 전자사전을 확장하는 방법을 제시한다. 연관 단어가 유사한 벡터 표현을 갖도록 하기 위해 유의어 사전의 정보를 사용하여 재구성된 벡터를 생성한다. 기존의 워드 임베딩과 재구성된 벡터를 사용하여 동일한 실험을 진행한다. 워드 임베딩을 이용한 벡터로 단어의 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 32.19%이고, 확장한 의미 범주 할당의 시스템 성능은 51.14%이다. 재구성된 벡터를 이용한 단어의 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 33.33%이고, 확장한 의미범주 할당의 시스템 성능은 53.88%이다. 의미 범주가 할당되지 않은 새로운 단어에 대해서 논문에서 제안한 방법으로 의미 범주를 할당하여 세종 전자사전의 의미 범주 단어 확장에 대해 도움이 됨을 증명하였다.
의미 프레임과 유의어 클러스터를 이용한 한국어 의미역 인식
기계학습 기반의 의미역 인식에서 어휘, 구문 정보가 자질로 주로 쓰이지만, 의미 정보를 분석하는 의미역 인식은 의미 정보 또한 매우 유용한 정보이다. 그러나, 기존 연구에서는 의미 정보를 활용할 수 있는 방법이 제한되어 있기 때문에, 소수의 연구만 진행되었다. 본 논문에서는 의미 정보를 활용하는 방안으로 동형이의어 수준의 의미 애매성 해소 기술, 고유 명사에 대한 개체명 인식 기술, 의미 정보에 기반한 필터링, 유의어 사전을 이용한 클러스터 및 기존 의미 프레임 정보 확장, 구문-의미 정보 연동 규칙, 필수 의미역 오류 보정 등을 제안한다. 제안하는 방법은 기존 연구 대비 뉴스 도메인인 Korean Propbank 는 3.77, 위키피디아 문서 기반의 Exobrain GS 3.0 평가셋에서는 8.05의 성능 향상을 보였다.