디지털 라이브러리[ 검색결과 ]
검색 : [ author: Kun Park ] (1)
한국어 음성 분리 실험을 위한 소음 환경 발화 중첩 데이터셋 개발
http://doi.org/10.5626/JOK.2024.51.6.513
음성 분리 기술은 화자의 발화와 소음이 중첩되어있는 음성 데이터셋을 활용하여 모델을 훈련 한다. 해외의 경우 중첩음 형식으로 제작된 데이터셋이 구축되어 음성 분리 기술 성능 발전을 도모하고 있 다. 하지만 국내의 경우, 한국어 발화 및 소음 중첩 데이터셋이 구축된 전례가 없으며 이는 한국어 음성 분리 기술 발전에 한계점으로 작용하고 있다. 따라서 본 논문에서는 한국어 대상의 단일 채널 음성 분리 모델에 적용할 수 있는 데이터셋 생성기를 개발하고, 이를 활용해 구축한 소음 환경 한국어 발화 중첩 데 이터셋을 제안한다. 실험에서는 구축한 데이터셋을 기반으로 Conv-TasNet 음성 분리 모델 훈련 및 평가 를 진행한다. 또한 사전 훈련된 음성 인식 모델을 활용하여 분리된 음성과 실제 발화 원음 간 음절 오인 식률(Character Error Rate, CER) 비교를 통해 데이터셋의 실효성을 검증한다.