디지털 라이브러리[ 검색결과 ]
검색 : [ author: Kyunghyun Lim ] (1)
효과적인 음향잡음 제거를 위한 사전 훈련된 생성자를 사용하는 적대적 생성망
http://doi.org/10.5626/JOK.2021.48.3.334
Speech enhancement GAN (SEGAN)은 딥러닝 모델 중 하나인 적대적 생성망을 기반으로 음향잡음을 제거하는데 좋은 성능을 보여주는 모델 중 하나이다. 하지만 매우 넓은 분포를 가지는 비정적 잡음을 하나의 생성자로 학습하는 과정에서 생성자는 쉽게 불안정해진다는 문제가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 기학습된 생성자를 활용한 적대학습 방법을 제안한다. 오토인코더와 동일한 방식으로 기학습된 생성자의 출력을 적대학습 생성자의 입력으로 사용함으로써, 일차적으로 축소된 데이터를 활용해 분포 매칭의 어려움을 완화시키고, 학습의 안정성을 높인다. 본 논문에서는 객관적으로 모델의 성능을 평가하기 위해 scale Invariant Signal to Noise Ratio (SI-SNR) 평가지표를 활용하였다. 실험결과 잡음 음성 대비 SI-SNR이 약 4.08 상승하여 제안 방법이 잡음을 제거하는 것에 유용함을 확인하였다.