디지털 라이브러리[ 검색결과 ]
어휘의미망을 이용한 주제 분류 및 감성 표현 영역 추출 모델
http://doi.org/10.5626/JOK.2023.50.8.700
기존의 감성 분석은 하나의 문장 혹은 문서를 단일 감성으로 분류하지만, 한 문장안에 두 가지 이상의 감성이 존재할 수 있다. 본 논문은 이를 해결하기 위해 어절 단위로 감성 표현 영역을 구분하는 모델을 제안한다. 제안 모델은 주제별 사전으로 예측한 문장의 주제를 모델의 자질로 사용한다. 주제별 사전은 학습 단계 초기에 구축되며, 학습 모듈이 학습 말뭉치에서 주제별 단어를 수집하고 어휘의미망의 상하관계를 이용해 주제별 단어를 확장한다. 제안 모델의 구조는 형태소 분석된 문장을 입력으로 사용하는 UBERT 모델에 주제 분류와 감성 표현 영역을 예측하는 레이어를 추가한 것이다. 평가 방식은 어절 단위 F1-Score를 사용한다. 상술한 문장 주제를 자질로 사용한 제안 모델은 F1-Score이 58.19%까지 나왔으며, baseline보다 0.97% 포인트 향상했다.
문맥과 의미 정보를 사용한 뉴로 심볼릭 앙상블 언어 표현
http://doi.org/10.5626/JOK.2022.49.12.1124
초거대 언어 모델의 등장으로 자연어 처리는 한 단계의 벽을 뛰어 넘는 계기가 되었다. 하지만, 초거대 언어 모델은 문맥에서 추출한 정보만을 사용하기 때문에 성능 향상을 위해 단순히 모델의 크기 또는 데이터의 양을 늘리는 방법을 선택했다. 이러한 방법은 언어 모델이 소비하는 자원의 양을 증가시켜왔다. 본 논문에서는 문맥적인 정보만을 사용하는 언어 모델에 어휘의 의미 정보를 함께 학습하는 뉴로 심볼릭 앙상블 언어 표현 방법을 제안한다. 한국어 어휘망(UWordMap)에서 상위어, 용언의 의미제약 정보 추출했으며, 단어의 의미 벡터를 추가로 사용했다. 4가지 영역에 대해서 뉴로 심볼릭 앙상블 언어 표현 모델을 테스트 했으며, 기계 독해 영역에서 기존 모델보다 좋은 성능을 보였다. 또한 기존의 모델보다 학습이 수렴하는 속도가 빠르며, 응용 영역의 데이터가 부족한 경우 기존 모델보다 좋은 성능을 보였다.
한국어 어휘 의미망을 활용한 CRF 모델 기반 개체명 인식
http://doi.org/10.5626/JOK.2021.48.5.556
개체명 인식은 주어진 문장 내의 고유한 의미가 있는 단어들을 미리 정의된 개체의 범주로 분류하는 작업이다. 최근 딥러닝 네트워크 혹은 언어 모델을 이용한 개체명 인식 연구들이 높은 성능을 보였지만 이러한 모델은 고성능의 컴퓨팅 파워가 요구되며 학습 모델의 속도가 느려 아직은 실용성이 낮다는 문제가 있다. 본 논문에서는 실용성을 목적으로 처리 속도와 정확률을 모두 고려하여 기계학습 방식의 CRF를 기반으로 하여 의미 자질과 구문적 자질을 추가한 개체명 인식 시스템을 제안한다. 한국어 어휘 의미망(UWordMap)을 활용하여 사람의 지식을 기반으로 하여 의미 자질인 상위어, 최상위어 정보와 구문적 자질인 의존관계와 격조사 정보를 학습 자질로 추가하고 평가하였다. 실험 결과, F1 score 기준 90.54% 포인트의 성능과 초당 약 1,461 문장을 처리하였다.
의미 추상화를 이용한 전이 기반 한국어 의존관계 분석 시스템
http://doi.org/10.5626/JOK.2019.46.11.1174
기존 학습기반의 의존관계 연구는 형태소의 표층형과 품사 태그를 조합하여 학습 자질로 사용한다. 품사 태그의 경우 재현율이 높아 자질로 사용하기 적합하지만 품사 태그만으로 의존관계의 분석 정확률을 높이는 데는 한계가 있다. 표층형의 경우 표층형이 재현될 경우 높은 의존관계 정확률을 보이지만 품사 태그에 비하여 낮은 재현율을 보인다. 본 논문에서는 형태소의 표층형 재현율을 높이기 위해 어휘의미망(UWordMap)을 활용하여 명사의 표층형을 의미추상화하여 이를 자질로 사용하는 전이 기반 의존관계 분석방법을 제안한다. 명사의 표층형 의미추상화를 자질로 사용했을 때, 기존 표층형 자질만을 사용하였을 때보다 의존관계 분석 정확률이 최대 7.55% 상승하였다. 의미추상화 자질을 포함한 어절 단위, 형태소 단위, 음절 단위 자질을 모두 사용할 경우 90.75% 의존관계 분석 정확률을 보였고, 초당 562 문장의 학습 속도와 초당 631문장 의존관계 분석 속도를 보여 제안한 방법이 실용적으로 사용할 수 있을 것으로 판단된다.
한국어 어휘의미망(UWordMap)을 이용한 동형이의어 분별 개선
한국어처리 분야에서 동형이의어 분별은 의미처리를 위해서는 매우 중요하고 오랫동안 연구되어온 주제이다. 최근에 말뭉치를 학습하는 기계학습 방법이 정확률과 속도면에서 좋은 결과를 보이고 있으며, 미학습 어절을 처리하기 위해 어휘의미망을 이용한 지식기반 방법도 연구되고 있다. 본 논문은 말뭉치를 학습한 기계학습 방법에 어휘의미망과 함께 사용하는 방법을 제시한다. 이 방법의 기본 전략은 하위범주화 정보를 말뭉치화하여서 기존 말뭉치와 함께 학습시키고, 동형이의어 태깅 시점에서 분석 대상 명사의 상위어를 찾아서 학습정보와 같이 사용하는 것이다. 이 방법의 효과를 확인하기 위해 세종말뭉치와 UWordMap으로 실험을 하였으며, 정확률이 96.51%에서 96.52%로 미미하지만 상승하는 것을 확인하였다.