검색 : [ keyword: sentiment analysis ] (11)

인용문 및 속성 인코더 혼합 모델 기반 경제 뉴스 맞춤형 감성 분석

최서인, 박대민, 온병원

http://doi.org/10.5626/JOK.2025.52.4.319

뉴스 기사는 정치, 경제, 사회, 문화 등 다양한 주제의 정보를 제공하며, 중립적인 논조를 유지하려는 특성상 기존 감성 분석 모델이 감정을 충분히 포착하지 못하는 한계가 있었다. 이를 해결하기 위해 본 연구에서는 인용문과 기사 속성 값을 결합한 새로운 감성 분석 모델을 제안한다. 감성 분석에는 딥러닝 기반의 BERT와 한국어에 최적화된 KoBERT, KLUE 모델을 사용했으며, 이 모델을 사용한 임베딩 결과를 Mixture of Experts(MoE) 구조로 결합하여 인용문의 감정 정보와 기사 속성 정보를 동시에 학습시켰다. 실험 결과, 제안된 모델 중 속성별 문자열 및 속성 그룹 임베딩 모델이 기존의 인용문 단독 분석 및 전통적 기계 학습 모델에 비해 더 높은 정확도와 신뢰성을 보였다. 특히 KLUE 모델은 한국어 데이터에 최적화되어 있어 성능이 향상되었고, 다양한 속성 정보가 감성 분석 모델의 예측 정확도를 높이는 데 크게 기여함을 확인할 수 있었다. 이는 인용문과 기사 속성 정보를 효과적으로 결합함으로써 중립적인 뉴스 기사에서도 더 정교한 감정 분석이 가능함을 시사한다.

프롬프트 튜닝 기법을 적용한 한국어 속성기반 감정분석

김봉수, 최승호, 박시현, 왕준호, 김지윤, 전현규, 장정훈

http://doi.org/10.5626/JOK.2024.51.12.1043

속성기반 감정분석은 텍스트 내에서 감정과 해당 감정이 특정 속성, 예를 들어 제품의 특성이나 서비스의 특징에 어떻게 연결되는지를 분석하는 태스크이다. 본 논문에서는 속성기반 감정분석 데이터를 사용한 다중 작업-토큰 레이블링 문제에 프롬프트 튜닝 기법을 적용하기 위한 포괄적인 방법론을 소개한다. 이러한 방법론에는 토큰 레이블링 문제를 시퀀스 레이블링 문제로 일반화하기 위한 감정표현 영역 검출 파이프라인이 포함된다. 또한 분리된 시퀀스들을 속성과 감정에 대해 분류하기 위한 템플릿을 선정하고, 데이터셋 특성에 맞는 레이블 워드를 확장하는 방법을 제안함으써 모델의 성능을 최적화한다. 최종적으로, 퓨샷 세팅에서의 속성기반 감정분석 태스크에 대한 몇 가지 실험 결과와 분석을 제공한다. 구축된 데이터와 베이스라인 모델은 AIHUB(www.aihub.or.kr, 속성기반 감정분석 데이터)에 공개되어 있다.

어휘의미망을 이용한 주제 분류 및 감성 표현 영역 추출 모델

박지은, 이주상, 신준철, 옥철영

http://doi.org/10.5626/JOK.2023.50.8.700

기존의 감성 분석은 하나의 문장 혹은 문서를 단일 감성으로 분류하지만, 한 문장안에 두 가지 이상의 감성이 존재할 수 있다. 본 논문은 이를 해결하기 위해 어절 단위로 감성 표현 영역을 구분하는 모델을 제안한다. 제안 모델은 주제별 사전으로 예측한 문장의 주제를 모델의 자질로 사용한다. 주제별 사전은 학습 단계 초기에 구축되며, 학습 모듈이 학습 말뭉치에서 주제별 단어를 수집하고 어휘의미망의 상하관계를 이용해 주제별 단어를 확장한다. 제안 모델의 구조는 형태소 분석된 문장을 입력으로 사용하는 UBERT 모델에 주제 분류와 감성 표현 영역을 예측하는 레이어를 추가한 것이다. 평가 방식은 어절 단위 F1-Score를 사용한다. 상술한 문장 주제를 자질로 사용한 제안 모델은 F1-Score이 58.19%까지 나왔으며, baseline보다 0.97% 포인트 향상했다.

감성 정보를 반영한 워드 임베딩을 위한 학습 데이터 자동 생성 방안

이다희, 이원민, 온병원

http://doi.org/10.5626/JOK.2022.49.1.42

워드 임베딩(Word Embedding)이란 단어를 벡터로 표현하는 방법이다. 하지만 기존 워드 임베딩 방법들은 함께 등장한 단어들을 예측하기 때문에 감성이 다른 단어여도 유사한 벡터로 표현된다. 이를 사용하여 감성 분석 모델을 구축할 경우, 비슷한 패턴의 문장들을 같은 감성으로 분류할 가능성이 있으며, 이는 감성 분석 모델의 성능을 저하하는 요인 중 하나가 된다. 본 논문에서는 이와 같은 문제점을 해결하기 위하여 형태소 분석, 의존 구문 분석, 감성 사전을 활용하여 감성 정보를 반영한 워드 임베딩을 위한 학습 데이터를 자동으로 생성하는 방안을 제안한다. 제안 방안으로 생성된 학습 데이터로 워드 임베딩을 하고, 감성 분석 모델의 입력으로 사용한 결과, 기존 워드 임베딩 방법을 사용했을 때보다 향상된 성능을 보였으며, 전이 학습 모델보다 비슷하거나 높은 성능을 보였다.

SMERT: 감성 분석 및 감정 탐지를 위한 단일 입출력 멀티 모달 BERT

김경훈, 박진욱, 이지은, 박상현

http://doi.org/10.5626/JOK.2021.48.10.1122

감성 분석은 텍스트로부터 주관적인 의견 및 성향을 분석하고, 감정 탐지는 ‘행복’, ‘슬픔’과 같이 텍스트에서 나타나는 감정을 검출하는 연구다. 멀티 모달 데이터는 텍스트뿐만 아니라 이미지, 음성 데이터가 함께 나타나는 것을 의미한다. 관련 선행 연구에서 순환 신경망 모형 혹은 교차 트랜스포머를 사용한다. 하지만 순환 신경망 모형은 장기 의존성 문제를 가지며, 교차 트랜스포머는 모달리티별 특성을 반영하지 못하는 문제점이 있다. 이를 해결하기 위해 본 연구에서는 멀티 모달 데이터가 하나의 네트워크로 학습되는 단일 입출력 트랜스포머 기반 모형 SMERT를 제안한다. SMERT는 모달리티 결합 표현형을 얻어 이를 감성 분석 및 감정 탐지에 활용한다. 또한, BERT의 훈련 태스크를 멀티 모달 데이터에 활용하기 위해 개량하여 사용한다. 제안하는 모델의 검증을 위해 CMU-MOSEI 데이터셋과 여러 평가 지표를 이용하고, 모달리티 조합별 비교실험과 예시를 통해 모델의 우수성을 검증하였다.

감정 분석을 위한 BERT 사전학습모델과 추가 자질 모델의 결합

이상아, 신효필

http://doi.org/10.5626/JOK.2021.48.7.815

대규모 코퍼스에 기반한 사전학습모델인 BERT 모델은 언어 모델링을 통해 텍스트 내의 다양한 언어 정보를 학습할 수 있다고 알려져 있다. 여기에는 별도의 언어 자질이 요구되지 않으나, 몇몇 연구에서 특정한 언어 지식을 추가 반영한 BERT 기반 모델이 해당 지식과 관련된 자연어처리 문제에서 더 높은 성능을 보고하였다. 본 연구에서는 감정 분석 성능을 높이기 위한 방법으로 한국어 감정 사전에 주석된 감정 극성과 강도 값을 이용해 감정 자질 임베딩을 구성하고 이를 보편적 목적의 BERT 모델과 결합하는 외적 결합과 지식 증류 방식을 제안한다. 감정 자질 모델은 작은 스케일의 BERT 모델을 적은 스텝 수로 학습하여 소요 시간과 비용을 줄이고자 했으며, 외적 결합된 모델들은 영화평 분류와 악플 탐지문제에서 사전학습모델의 단독 성능보다 향상된 결과를 보였다. 또한 본 연구는 기존의 BERT 모델 구조에 추가된 감정 자질이 언어 모델링 및 감정 분석의 성능을 개선시킨다는 것을 관찰하였다.

데이터 분포의 균형화를 이용한 한국어 텍스트의 차원적 감성 분석

전태희, 김창환

http://doi.org/10.5626/JOK.2021.48.7.790

텍스트 혹은 발화의 감정을 연속적인 수치로 회귀하는 차원적 감성 분석 연구는 데이터의 부족으로 인해 감정을 범주로 분류하는 범주적 감성 분석 연구에 비해 많은 연구가 이루어지지 못하였다. 최근 한국정보화진흥원의 AI Hub를 통해 공개된 ‘멀티모달 영상 데이터’는 한국어의 차원적 감성 분석 연구에 활용할 수 있는 공공 데이터이다. 본 연구에서는 자연어 처리에서 전형적으로 쓰여 온 딥 러닝 모델인 중 하나인 CNN을 이용해 한국어의 차원적 감성 분석을 시도하였다. 또한 데이터의 분포를 균형적으로 조정함으로써 모델의 성능이 향상되는지 검증하였다. 실험 결과 모델들은 기존의 영어 연구와 비슷한 성능을 보여 한국어 텍스트의 차원적 감성 분석 연구에서 ‘멀티모달 영상 데이터’가 효용성을 지님을 알 수 있었다. 또한 데이터를 균형화함으로써 더 적은 학습 데이터를 이용해 학습한 모델이 더 좋은 성능을 보일 수 있음을 확인하였다.

문맥 표현과 셀프 어텐션을 이용한 한국어 영화평 감성 분석

박천음, 이동헌, 김기훈, 이창기, 김현기

http://doi.org/10.5626/JOK.2019.46.9.901

감성 분석은 특정 대상에 대한 의견을 수집하고 분류하는 과정이다. 그러나 자연어에 포함된 사람의 주관을 파악하는 일은 어려운 일로써, 기존의 감성 단어 사전이나 확률 모델은 이러한 문제를 해결하기 어려웠으나 딥 러닝의 발전으로 문제 해결을 시도할 수 있게 됐다. 셀프 어텐션(self-attention)은 주어진 입력열 자신에 대하여 어텐션을 계산하고 가중치 합으로 문맥 벡터를 만들어 모델링하는 방법이며, 문맥상 비슷한 의미를 가진 단어들 간에 높은 가중치가 계산되는 효과가 있다. 본 논문에서는 사전 학습된 문맥 표현을 한국어 감성 분석에 활용하고, 셀프 어텐션으로 모델링하는 방법을 제안한다. 실험 결과, NSMC의 경우 정확도 89.82%, 다음카카오의 경우 92.25%의 성능을 보였다.

Bi-LSTM 기반 감성분석을 위한 대용량 학습데이터 자동 생성 방안

최민성, 온병원

http://doi.org/10.5626/JOK.2019.46.8.800

딥러닝을 이용한 감성분석에서는 감성이 레이블 된 많은 양의 학습데이터가 필요하다. 그러나 사람이 직접 감성을 레이블 하는 것은 시간과 비용에 제약이 있고 많은 데이터에서 감성분석에 적합한 충분한 양의 데이터를 수집하는 것은 쉽지 않다. 본 논문에서는 이러한 문제점을 해결하기 위해 기존의 감성사전을 활용하여 감성점수를 매긴 후 감성 변환 요소가 존재하면 의존 구문 분석 및 형태소 분석을 수행해 감성점수를 재설정하여 감성이 레이블 된 대용량 학습데이터를 자동 생성하는 방안을 제안한다. 감성변환 요소로는 감성 반전, 감성 활성화, 감성 비활성화가 있으며 감성점수가 높은 Top-k의 데이터를 추출하였다. 실험 결과 수작업에 비해 짧은 시간에 대용량의 학습데이터를 생성하였으며 학습데이터의 양이 증가함에 따라 딥러닝의 성능이 향상됨을 확인하였다. 그리고 감성사전만을 사용한 모델의 정확도는 80.17%, 자연어처리 기술을 추가한 제안 모델의 정확도는 89.17%로 9%의 정확도 향상을 보였다.

Parallel Stacked Bidirectional LSTM 모델을 이용한 한국어 영화리뷰 감성 분석

오영택, 김민태, 김우주

http://doi.org/10.5626/JOK.2019.46.1.45

감성분석은 텍스트 문서의 감성을 분류하는 문서 분류의 한 분야이다. 딥러닝을 이용한 감성분석 방법론은 문서를 토큰화 후 임베딩을 통해 문장벡터를 얻는 과정과 벡터화된 문서를 분류하는 과정으로 나눌 수 있다. 기존 연구들의 방식들을 리뷰하고 어떤 방식의 임베딩 방법과 딥러닝 모델이 한국어 문서에 적합한지 감성분석에 비교 실험을 통해 한국어에 적합한 방법론을 찾아낸다. 문서 전처리 방법은 문서를 단어, 음절 그리고 음소 단위로 토큰화 하는 방법을 비교하였다. 또한, 모델을 CNN부터 LSTM, Bi-LSTM, Stacked Bi-LSTM, 새롭게 제안하는 Parallel Stacked Bidirectional LSTM 모델까지 네이버 영화 리뷰 데이터셋인 NSMC에 대해 비교 실험을 하였다. 제안된 모델의 성능이 기존의 기본 딥러닝 모델에 비해 높은 성능을 보임을 확인하였고, 다른 전처리를 통해 학습된 모델간의 앙상블을 통해 보다 최고 성능인 88.95%의 분류 정확도를 달성하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr