검색 : [ keyword: korean speech processing ] (1)

KcBERT를 활용한 한국어 음성인식 텍스트 정확도 향상 연구

민동욱, 남승수, 최대선

http://doi.org/10.5626/JOK.2024.51.12.1115

음성 인식 분야에서는 Whisper, Wav2Vec2.0, Google STT와 같은 모델이 널리 사용되고 있다. 그러나 한국어 음성 인식은 복잡한 음운 규칙과 다양한 발음 변이로 인해 성능 향상에 어려움을 겪는다. 이러한 문제를 해결하기 위해 Whisper 모델과 KcBERT 후처리 방식을 결합한 방법을 제안한다. Whisper 모델이 생성한 텍스트에 대해 KcBERT의 양방향 문맥 학습을 적용하여 문맥적 일관성을 높이고, 보다 자연스러운 텍스트로 교정하기 위해 결합하였다. 실험 결과, 후처리를 통해 lean 환경에서 CER이 5.12%에서 1.88%로, Noise 환경에서 22.65%에서 10.17%로 감소하였다. 또한, WER은 Clean 환경에서 13.29%에서 2.71%, Noise 환경에서 38.98%에서 11.15%로 크게 개선되었다. BERTScore 역시 향상되었으며, 한국어 음성 인식에서의 복잡한 음운 규칙 교정과 텍스트 일관성 유지에 효과적임을 입증하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr