검색 : [ author: Inseon Jang ] (1)

Deep Neural Networks and End-to-End Learning for Audio Compression

Daniela N. Rim, Inseon Jang, Heeyoul Choi

http://doi.org/10.5626/JOK.2021.48.8.940

단일 딥러닝 모델에 대한 최근의 성과는 고도로 구조화된 데이터를 하나의 통합된 모델로 다루는 일들을 가능하게 했다. 하지만, 오디오 신호를 압축하기 위한 단일 딥러닝 모델을 학습하는 것은 내부적으로 신호에 대해 이산표현을 필요로 하기 때문에 어려운 작업이었다. 본 논문에서는 은닉공간에 이산표현을 가지는 변이 오토인코더 의 훈련 전략 내에서 순환 신경망(RNNs)를 결합하는 단일모델 기반 심층망 모델과 학습방법을 제시한다. 제안하는 방법에서는 베르누이(Bernoulli) 분포를 위한 재파라미터화 기법을 사용하여 이산표현에서 역전파를 가능하게 하도록 하였으며 그 결과 실제 오디오 압축에 필수적인 인코더와 디코더를 분리할 수 있었다. 우리가 아는 범위에서, 제안된 모델은 오디오 압축을 위해 RNN를 사용한 단일모델 학습의 최초의 구현으로써, 20.53dB의 SDR (신호 대 왜곡 비율)을 달성한다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr