검색 : [ author: Byung-Won On ] (7)

인용문 및 속성 인코더 혼합 모델 기반 경제 뉴스 맞춤형 감성 분석

최서인, 박대민, 온병원

http://doi.org/10.5626/JOK.2025.52.4.319

뉴스 기사는 정치, 경제, 사회, 문화 등 다양한 주제의 정보를 제공하며, 중립적인 논조를 유지하려는 특성상 기존 감성 분석 모델이 감정을 충분히 포착하지 못하는 한계가 있었다. 이를 해결하기 위해 본 연구에서는 인용문과 기사 속성 값을 결합한 새로운 감성 분석 모델을 제안한다. 감성 분석에는 딥러닝 기반의 BERT와 한국어에 최적화된 KoBERT, KLUE 모델을 사용했으며, 이 모델을 사용한 임베딩 결과를 Mixture of Experts(MoE) 구조로 결합하여 인용문의 감정 정보와 기사 속성 정보를 동시에 학습시켰다. 실험 결과, 제안된 모델 중 속성별 문자열 및 속성 그룹 임베딩 모델이 기존의 인용문 단독 분석 및 전통적 기계 학습 모델에 비해 더 높은 정확도와 신뢰성을 보였다. 특히 KLUE 모델은 한국어 데이터에 최적화되어 있어 성능이 향상되었고, 다양한 속성 정보가 감성 분석 모델의 예측 정확도를 높이는 데 크게 기여함을 확인할 수 있었다. 이는 인용문과 기사 속성 정보를 효과적으로 결합함으로써 중립적인 뉴스 기사에서도 더 정교한 감정 분석이 가능함을 시사한다.

계층적인 잠재 표현 기반의 사이버 범죄 신조어 자동 탐지 프레임워크

김용연, 온병원

http://doi.org/10.5626/JOK.2023.50.12.1121

사이버 범죄자들은 의사소통을 위해 기존 단어에 범죄 의미를 추가하거나 유사한 단어로 대체하여 은어를 끊임없이 생산해 사용한다. 이에 대응하기 위해서는 지속적인 모니터링과 수작업이 필요하며 딥러닝을 이용할 경우 레이블 된 많은 양의 학습데이터가 필요하다. 그러나, 사람이 직접 레이블링 하는 것은 시간과 비용이 많이 소요되고 사이버 범죄 특성상 은밀하게 진행되기 때문에 많은 양의 학습데이터를 수집하는 것은 한계 있다. 본 논문에서는 한계를 해결하기 위해 오토인코더를 기반으로 프레임워크를 개발하고 계층적인 잠재 벡터 유사도 비교를 통해 문맥적 사이버 범죄 은어와 신조어를 효과적으로 탐지하는 방안을 제안한다. 사이버 범죄 게시글 데이터셋을 사용하여 실험한 결과, 해당 프레임워크는 유사도 임계값 0.5에서 최대 99.1%의 정확도를 보였다.

감성 정보를 반영한 워드 임베딩을 위한 학습 데이터 자동 생성 방안

이다희, 이원민, 온병원

http://doi.org/10.5626/JOK.2022.49.1.42

워드 임베딩(Word Embedding)이란 단어를 벡터로 표현하는 방법이다. 하지만 기존 워드 임베딩 방법들은 함께 등장한 단어들을 예측하기 때문에 감성이 다른 단어여도 유사한 벡터로 표현된다. 이를 사용하여 감성 분석 모델을 구축할 경우, 비슷한 패턴의 문장들을 같은 감성으로 분류할 가능성이 있으며, 이는 감성 분석 모델의 성능을 저하하는 요인 중 하나가 된다. 본 논문에서는 이와 같은 문제점을 해결하기 위하여 형태소 분석, 의존 구문 분석, 감성 사전을 활용하여 감성 정보를 반영한 워드 임베딩을 위한 학습 데이터를 자동으로 생성하는 방안을 제안한다. 제안 방안으로 생성된 학습 데이터로 워드 임베딩을 하고, 감성 분석 모델의 입력으로 사용한 결과, 기존 워드 임베딩 방법을 사용했을 때보다 향상된 성능을 보였으며, 전이 학습 모델보다 비슷하거나 높은 성능을 보였다.

어휘 관계 및 문맥 정보 기반의 도메인 감성사전 자동 구축 방안 연구

박상민, 온병원

http://doi.org/10.5626/JOK.2020.47.10.926

감성사전은 감성 어휘들에 대한 집합으로 각 어휘들에 대한 감성의 극성이 부여되어 있으며, 감성 분석(Sentiment Analysis)을 위한 기초 자료로 활용된다. 하지만 이와 같은 감성 어휘들은 특정 도메인에 따라 극성이 역전되거나 유실될 수도 있으며 의존적인 감성 어휘가 존재할 수 있다. 예를 들면, 일반적으로 ‘잘 잤다’라는 단어는 긍정의 극성을 보이지만, 영화 도메인에서는 그 의미가 부정으로 쓰인다. 그렇기 때문에 감성사전은 분석하고자 하는 도메인의 특징이 반영되어 있어야 하며 도메인에 따라 알맞은 감성사전이 구축되고 활용되어야 한다. 이와 같은 문제를 해결하기 위해 현재 도메인 감성사전을 자동으로 구축하는 다양한 연구들이 나왔지만, 인간의 개입, 문맥적 요소 미고려, 지역적인 정보 반영 등이라는 문제점을 지니고 있다. 본 연구에서는 이와 같은 문제를 해결하기 위해 한국어 범용 감성사전인 ‘KNU 한국어 감성사전’과 글로브 벡터 그리고 접속사 관계를 활용하여, 특정 도메인의 전역적인 감성 정보와 문맥적 특징을 충분히 반영한 도메인 감성사전 구축 방안을 제안한다.

Bi-LSTM 기반 감성분석을 위한 대용량 학습데이터 자동 생성 방안

최민성, 온병원

http://doi.org/10.5626/JOK.2019.46.8.800

딥러닝을 이용한 감성분석에서는 감성이 레이블 된 많은 양의 학습데이터가 필요하다. 그러나 사람이 직접 감성을 레이블 하는 것은 시간과 비용에 제약이 있고 많은 데이터에서 감성분석에 적합한 충분한 양의 데이터를 수집하는 것은 쉽지 않다. 본 논문에서는 이러한 문제점을 해결하기 위해 기존의 감성사전을 활용하여 감성점수를 매긴 후 감성 변환 요소가 존재하면 의존 구문 분석 및 형태소 분석을 수행해 감성점수를 재설정하여 감성이 레이블 된 대용량 학습데이터를 자동 생성하는 방안을 제안한다. 감성변환 요소로는 감성 반전, 감성 활성화, 감성 비활성화가 있으며 감성점수가 높은 Top-k의 데이터를 추출하였다. 실험 결과 수작업에 비해 짧은 시간에 대용량의 학습데이터를 생성하였으며 학습데이터의 양이 증가함에 따라 딥러닝의 성능이 향상됨을 확인하였다. 그리고 감성사전만을 사용한 모델의 정확도는 80.17%, 자연어처리 기술을 추가한 제안 모델의 정확도는 89.17%로 9%의 정확도 향상을 보였다.

주제 추출을 위한 맵리듀스 기반의 사전확률 최적화 알고리즘

오선영, 온병원

http://doi.org/10.5626/JOK.2018.45.5.478

대용량 테스트 문서에서 의미 있는 정보를 찾기 위한 다양한 주제 추출 알고리즘이 사용되고 있다. 주제 추출 알고리즘은 베이지안(Bayes) 확률 모델을 사용하기 때문에 사전확률 α와 β가 입력으로 주어져야 한다. 기존에는 주제 추출 알고리즘을 사용하기 위해 기본(default) 사전확률을 사용하거나, 주관적으로 그 값을 결정하였다. 본 연구에서는 주제 추출 알고리즘의 사전확률을 자동으로 결정해주는 맵리듀스 기반의 알고리즘을 제안하고 대용량 데이터에 대한 성능과 정확도를 크게 향상시켰다. 기존의 단일 쓰레드 알고리즘과 다르게, 제안된 맵리듀스 알고리즘은 입력된 데이터에 적합한 사전확률을 빠르게 찾고 주제 추출 알고리즘을 실행하여 정확한 주제를 추출할 수 있다. 본 연구의 실험 결과에 따르면, 제안 방안은 주제일관성과 성능 측면에서 기존 방안보다 우수함을 나타낸다.

PRAM 기반의 조인 알고리즘 성능 비교 연구

최용성, 온병원, 최규상, 이인규

http://doi.org/

Phase Change Memory (PCM 또는 PRAM), Magneto Resistive RAM (MRAM)과 같은 차세대 비휘발성 메모리가 등장하면서, Dynamic Random-Access Memory (DRAM)을 PRAM으로 대체하는 연구가 활발히 진행되고 있다. 본 논문에서는 PRAM을 메인 메모리로 사용하는 시스템에서 지금까지 널리 사용되고 있는 기존의 조인 알고리즘(블록 네스티드 조인, 소트-머지 조인, 그레이스 해시 조인, 하이브리드 해시 조인)들을 사용했을 때 발생하는 내구성과 성능 문제를 비교, 분석한다. 본 연구의 실험결과에 의하면 기존의 조인 알고리즘들을 PRAM에 맞게 재설계해야 하는 필요성이 제기되었다. 특히, 본 연구는 조인 알고리즘들을 PRAM에 적용했을 때 발생하는 이슈들을 과학적으로 규명한 첫 시도이다. 그리고 기존의 조인 알고리즘들을 PRAM에 적용했을 때 발생하는 내구성과 성능을 비교하기 위한 PRAM 기반의 시스템을 모델링하고 시뮬레이터를 구현한 것에 연구의 의의를 둘 수 있다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr