한국어 음성 분리 실험을 위한 소음 환경 발화 중첩 데이터셋 개발 


51권  6호, pp. 513-518, 6월  2024
10.5626/JOK.2024.51.6.513


PDF

  요약

음성 분리 기술은 화자의 발화와 소음이 중첩되어있는 음성 데이터셋을 활용하여 모델을 훈련 한다. 해외의 경우 중첩음 형식으로 제작된 데이터셋이 구축되어 음성 분리 기술 성능 발전을 도모하고 있 다. 하지만 국내의 경우, 한국어 발화 및 소음 중첩 데이터셋이 구축된 전례가 없으며 이는 한국어 음성 분리 기술 발전에 한계점으로 작용하고 있다. 따라서 본 논문에서는 한국어 대상의 단일 채널 음성 분리 모델에 적용할 수 있는 데이터셋 생성기를 개발하고, 이를 활용해 구축한 소음 환경 한국어 발화 중첩 데 이터셋을 제안한다. 실험에서는 구축한 데이터셋을 기반으로 Conv-TasNet 음성 분리 모델 훈련 및 평가 를 진행한다. 또한 사전 훈련된 음성 인식 모델을 활용하여 분리된 음성과 실제 발화 원음 간 음절 오인 식률(Character Error Rate, CER) 비교를 통해 데이터셋의 실효성을 검증한다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

J. Jang, K. Park, J. Lee, M. Koo, "Creating a of Noisy Environment Speech Mixture Dataset for Korean Speech Separation," Journal of KIISE, JOK, vol. 51, no. 6, pp. 513-518, 2024. DOI: 10.5626/JOK.2024.51.6.513.


[ACM Style]

Jaehoo Jang, Kun Park, Jeongpil Lee, and Myoung-Wan Koo. 2024. Creating a of Noisy Environment Speech Mixture Dataset for Korean Speech Separation. Journal of KIISE, JOK, 51, 6, (2024), 513-518. DOI: 10.5626/JOK.2024.51.6.513.


[KCI Style]

장재후, 박건, 이정필, 구명완, "한국어 음성 분리 실험을 위한 소음 환경 발화 중첩 데이터셋 개발," 한국정보과학회 논문지, 제51권, 제6호, 513~518쪽, 2024. DOI: 10.5626/JOK.2024.51.6.513.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr