디지털 라이브러리[ 검색결과 ]
전이 학습과 어텐션(Attention)을 적용한 합성곱 신경망 기반의 음성 감정 인식 모델
http://doi.org/10.5626/JOK.2020.47.7.665
기존의 음성 기반 감정 인식 연구는 단일한 음성 특징값을 사용한 경우와 여러 가지 음성 특징값을 사용한 경우로 분류할 수 있다. 단일한 음성 특징값을 사용한 경우는 음성의 강도, 배음 구조, 음역 등 음성의 다양한 요소를 반영하기 어렵다는 문제가 있다. 여러 가지 음성 특징값을 사용한 경우에는 머신러닝 기반의 연구들이 다수를 차지하는데, 딥러닝 기반의 연구들에 비해 상대적으로 감정 인식 정확도가 낮다는 단점이 있다. 이러한 문제를 해결하기 위해 멜-스펙트로그램(Mel-Spectrogram)과 MFCC(Mel Frequency Cepstral Coefficient)를 음성 특징값으로 사용한 합성곱 신경망(Convolutional Neural Network) 기반의 음성 감정 인식 모델을 제안하였다. 제안하는 모델은 학습 속도 및 정확도 향상을 위해 전이학습과 어텐션(Attention)을 적용하였으며, 77.65%의 감정 인식 정확도를 달성하여 비교 대상들보다 높은 성능을 보였다.
SSD 방법을 이용한 Cut transition 검출 모델
http://doi.org/10.5626/JOK.2020.47.7.655
샷 경계 검출은 영상 콘텐츠 분석을 위한 필수적인 기술로 꾸준히 연구되고 있다. 본 논문에서는 기존 연구의 단점을 보완하고 Cut transition의 정확한 위치를 찾아내기 위해 SSD(Single Shot Multibox Detector) 방법을 이용한 종단간학습(End-to-End Learning) 모델을 제안한다. 여러 개의 Cut transition을 예측하기 위해 SSD의 다중 스케일 특징 맵(Multi-Scale Feature Map)과 Default box 개념을 적용하였으며, Cut transition의 특징 정보를 강화하기 위해 이미지 비교 방법 중 하나인 Image Concatenation 개념을 모델에 결합하였다. 제안하는 모델은 최신 연구와 비교하여 다시 레이블링을 한 ClipShots 데이터셋과 TRECVID 2007 데이터셋에서 각각 88.7%, 98.0%의 정확도를 보였다. 또한 기존의 딥러닝 모델보다 정답에 가까운 범위를 검출할 수 있었다.
Channel Attention과 그룹 컨볼루션을 이용한 효율적인 얼굴 감정인식 CNN
http://doi.org/10.5626/JOK.2019.46.12.1241
최근 얼굴 표정에서 감정을 인식하기 위한 문제에서 컨볼루션 신경망을 이용한 연구가 활발히 진행되고 있다. 본 논문에서는 사람의 얼굴 표정에서 나타나는 감정을 인식하기 위해 사용하는 딥 컨볼루션 신경망의 모델 복잡도(Complexity) 문제점을 해결한 효율적인 컨볼루션 신경망을 제안한다. 본 논문에서는 모델의 복잡도를 줄이기 위해 그룹 컨볼루션, 깊이별 분리 컨볼루션을 사용하여 파라미터 수와 연산량을 감소시키고 특징 연결을 위한 Skip Connection과 Channel Attention을 사용하여 특징의 재사용성과 채널 정보를 강화하였다. 제안하는 모델의 학습 파라미터 개수는 0.39 M(Million), 0.41 M으로 기존 모델에 비해 4배 이상 적은 수의 파라미터를 사용하여 FER2013, RAF-single 데이터셋에서 각각 70.32%, 85.23%의 정확도를 달성하였다.