검색 : [ author: Choonghyeon Lee ] (1)

CTC기반 음성인식 모델과 저차원 특징을 이용한 음성신호에서의 음소분할

이충현, 김성재, 김인중

http://doi.org/10.5626/JOK.2023.50.4.337

본 논문은 다중 수준 특징을 이용해 음성신호를 각 음소의 구간으로 분할하는 방법을 제안한다. 기존의 딥러닝 기반 음성인식 알고리즘들은 심층신경망이 추출한 고수준 특징을 기반으로 음소들의 위치를 추정한다. 그러나, 음소인식에는 고수준 특징이 효과적인 반면, 음소분할에는 지역적 정보를 잘 반영하는 저수준 특징이 더욱 효과적이다. 제안하는 방법은 먼저 고수준 특징을 이용해 음성신호로부터 음소들을 검출한 후 저수준 특징을 이용해 음소 간 경계를 추정한다. 고수준 특징만을 이용한 모델과의 비교 실험에서 음소 경계 추정 평균절대오차(mean absolute error)가 HESD 데이터셋에 대하여 0.34초에서 0.01초로 95.8% 감소하였으며, NUS-48E 데이터셋에 대해서는 0.17초에서 0.04초로 76.5% 감소하였다. 시각화 분석에서도 다중 수준 특징을 이용하는 제안하는 방법은 비교 모델에 비해 음소 간 경계를 더 정확하게 추정하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr