전이 학습과 어텐션(Attention)을 적용한 합성곱 신경망 기반의 음성 감정 인식 모델 


47권  7호, pp. 665-673, 7월  2020
10.5626/JOK.2020.47.7.665


PDF

  요약

기존의 음성 기반 감정 인식 연구는 단일한 음성 특징값을 사용한 경우와 여러 가지 음성 특징값을 사용한 경우로 분류할 수 있다. 단일한 음성 특징값을 사용한 경우는 음성의 강도, 배음 구조, 음역 등 음성의 다양한 요소를 반영하기 어렵다는 문제가 있다. 여러 가지 음성 특징값을 사용한 경우에는 머신러닝 기반의 연구들이 다수를 차지하는데, 딥러닝 기반의 연구들에 비해 상대적으로 감정 인식 정확도가 낮다는 단점이 있다. 이러한 문제를 해결하기 위해 멜-스펙트로그램(Mel-Spectrogram)과 MFCC(Mel Frequency Cepstral Coefficient)를 음성 특징값으로 사용한 합성곱 신경망(Convolutional Neural Network) 기반의 음성 감정 인식 모델을 제안하였다. 제안하는 모델은 학습 속도 및 정확도 향상을 위해 전이학습과 어텐션(Attention)을 적용하였으며, 77.65%의 감정 인식 정확도를 달성하여 비교 대상들보다 높은 성능을 보였다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

J. H. Lee, U. N. Yoon, G. Jo, "CNN-based Speech Emotion Recognition Model Applying Transfer Learning and Attention Mechanism," Journal of KIISE, JOK, vol. 47, no. 7, pp. 665-673, 2020. DOI: 10.5626/JOK.2020.47.7.665.


[ACM Style]

Jung Hyun Lee, Ui Nyoung Yoon, and Geun-Sik Jo. 2020. CNN-based Speech Emotion Recognition Model Applying Transfer Learning and Attention Mechanism. Journal of KIISE, JOK, 47, 7, (2020), 665-673. DOI: 10.5626/JOK.2020.47.7.665.


[KCI Style]

이정현, 윤의녕, 조근식, "전이 학습과 어텐션(Attention)을 적용한 합성곱 신경망 기반의 음성 감정 인식 모델," 한국정보과학회 논문지, 제47권, 제7호, 665~673쪽, 2020. DOI: 10.5626/JOK.2020.47.7.665.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr