디지털 라이브러리[ 검색결과 ]
어휘의미망을 이용한 주제 분류 및 감성 표현 영역 추출 모델
http://doi.org/10.5626/JOK.2023.50.8.700
기존의 감성 분석은 하나의 문장 혹은 문서를 단일 감성으로 분류하지만, 한 문장안에 두 가지 이상의 감성이 존재할 수 있다. 본 논문은 이를 해결하기 위해 어절 단위로 감성 표현 영역을 구분하는 모델을 제안한다. 제안 모델은 주제별 사전으로 예측한 문장의 주제를 모델의 자질로 사용한다. 주제별 사전은 학습 단계 초기에 구축되며, 학습 모듈이 학습 말뭉치에서 주제별 단어를 수집하고 어휘의미망의 상하관계를 이용해 주제별 단어를 확장한다. 제안 모델의 구조는 형태소 분석된 문장을 입력으로 사용하는 UBERT 모델에 주제 분류와 감성 표현 영역을 예측하는 레이어를 추가한 것이다. 평가 방식은 어절 단위 F1-Score를 사용한다. 상술한 문장 주제를 자질로 사용한 제안 모델은 F1-Score이 58.19%까지 나왔으며, baseline보다 0.97% 포인트 향상했다.
문맥과 의미 정보를 사용한 뉴로 심볼릭 앙상블 언어 표현
http://doi.org/10.5626/JOK.2022.49.12.1124
초거대 언어 모델의 등장으로 자연어 처리는 한 단계의 벽을 뛰어 넘는 계기가 되었다. 하지만, 초거대 언어 모델은 문맥에서 추출한 정보만을 사용하기 때문에 성능 향상을 위해 단순히 모델의 크기 또는 데이터의 양을 늘리는 방법을 선택했다. 이러한 방법은 언어 모델이 소비하는 자원의 양을 증가시켜왔다. 본 논문에서는 문맥적인 정보만을 사용하는 언어 모델에 어휘의 의미 정보를 함께 학습하는 뉴로 심볼릭 앙상블 언어 표현 방법을 제안한다. 한국어 어휘망(UWordMap)에서 상위어, 용언의 의미제약 정보 추출했으며, 단어의 의미 벡터를 추가로 사용했다. 4가지 영역에 대해서 뉴로 심볼릭 앙상블 언어 표현 모델을 테스트 했으며, 기계 독해 영역에서 기존 모델보다 좋은 성능을 보였다. 또한 기존의 모델보다 학습이 수렴하는 속도가 빠르며, 응용 영역의 데이터가 부족한 경우 기존 모델보다 좋은 성능을 보였다.