한국어 음성 분리 실험을 위한 소음 환경 발화 중첩 데이터셋 개발

음성 분리 기술은 화자의 발화와 소음이 중첩되어있는 음성 데이터셋을 활용하여 모델을 훈련 한다. 해외의 경우 중첩음 형식으로 제작된 데이터셋이 구축되어 음성 분리 기술 성능 발전을 도모하고 있 다. 하지만 국내의 경우, 한국어 발화 및 소음 중첩 데이터셋이 구축된 전례가 없으며 이는 한국어 음성 분리 기술 발전에 한계점으로 작용하고 있다. 따라서 본 논문에서는 한국어 대상의 단일 채널 음성 분리 모델에 적용할 수 있는 데이터셋 생성기를 개발하고, 이를 활용해 구축한 소음 환경 한국어 발화 중첩 데 이터셋을 제안한다. 실험에서는 구축한 데이터셋을 기반으로 Conv-TasNet 음성 분리 모델 훈련 및 평가 를 진행한다. 또한 사전 훈련된 음성 인식 모델을 활용하여 분리된 음성과 실제 발화 원음 간 음절 오인 식률(Character Error Rate, CER) 비교를 통해 데이터셋의 실효성을 검증한다.

통계

2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.

논문 참조

[IEEE Style]

J. Jang, K. Park, J. Lee, M. Koo, "Creating a of Noisy Environment Speech Mixture Dataset for Korean Speech Separation," Journal of KIISE, JOK, vol. 51, no. 6, pp. 513-518, 2024. DOI: 10.5626/JOK.2024.51.6.513.

[ACM Style]

Jaehoo Jang, Kun Park, Jeongpil Lee, and Myoung-Wan Koo. 2024. Creating a of Noisy Environment Speech Mixture Dataset for Korean Speech Separation. Journal of KIISE, JOK, 51, 6, (2024), 513-518. DOI: 10.5626/JOK.2024.51.6.513.

[KCI Style]

장재후, 박건, 이정필, 구명완, "한국어 음성 분리 실험을 위한 소음 환경 발화 중첩 데이터셋 개발," 한국정보과학회 논문지, 제51권, 제6호, 513~518쪽, 2024. DOI: 10.5626/JOK.2024.51.6.513.

[Endnote/Zotero/Mendeley (RIS)] Download

[BibTeX] Download

Search

Journal of KIISE

ISSN : 2383-630X(Print)
ISSN : 2383-6296(Electronic)
KCI Accredited Journal

사무국

Tel. +82-2-588-9240
Fax. +82-2-521-1352
E-mail. chwoo@kiise.or.kr

정보과학회논문지

정보과학회논문지

한국어 음성 분리 실험을 위한 소음 환경 발화 중첩 데이터셋 개발

Search

사무국