디지털 라이브러리[ 검색결과 ]
KcBERT를 활용한 한국어 음성인식 텍스트 정확도 향상 연구
http://doi.org/10.5626/JOK.2024.51.12.1115
음성 인식 분야에서는 Whisper, Wav2Vec2.0, Google STT와 같은 모델이 널리 사용되고 있다. 그러나 한국어 음성 인식은 복잡한 음운 규칙과 다양한 발음 변이로 인해 성능 향상에 어려움을 겪는다. 이러한 문제를 해결하기 위해 Whisper 모델과 KcBERT 후처리 방식을 결합한 방법을 제안한다. Whisper 모델이 생성한 텍스트에 대해 KcBERT의 양방향 문맥 학습을 적용하여 문맥적 일관성을 높이고, 보다 자연스러운 텍스트로 교정하기 위해 결합하였다. 실험 결과, 후처리를 통해 lean 환경에서 CER이 5.12%에서 1.88%로, Noise 환경에서 22.65%에서 10.17%로 감소하였다. 또한, WER은 Clean 환경에서 13.29%에서 2.71%, Noise 환경에서 38.98%에서 11.15%로 크게 개선되었다. BERTScore 역시 향상되었으며, 한국어 음성 인식에서의 복잡한 음운 규칙 교정과 텍스트 일관성 유지에 효과적임을 입증하였다.
한국어 음성 분리 실험을 위한 소음 환경 발화 중첩 데이터셋 개발
http://doi.org/10.5626/JOK.2024.51.6.513
음성 분리 기술은 화자의 발화와 소음이 중첩되어있는 음성 데이터셋을 활용하여 모델을 훈련 한다. 해외의 경우 중첩음 형식으로 제작된 데이터셋이 구축되어 음성 분리 기술 성능 발전을 도모하고 있 다. 하지만 국내의 경우, 한국어 발화 및 소음 중첩 데이터셋이 구축된 전례가 없으며 이는 한국어 음성 분리 기술 발전에 한계점으로 작용하고 있다. 따라서 본 논문에서는 한국어 대상의 단일 채널 음성 분리 모델에 적용할 수 있는 데이터셋 생성기를 개발하고, 이를 활용해 구축한 소음 환경 한국어 발화 중첩 데 이터셋을 제안한다. 실험에서는 구축한 데이터셋을 기반으로 Conv-TasNet 음성 분리 모델 훈련 및 평가 를 진행한다. 또한 사전 훈련된 음성 인식 모델을 활용하여 분리된 음성과 실제 발화 원음 간 음절 오인 식률(Character Error Rate, CER) 비교를 통해 데이터셋의 실효성을 검증한다.
구개열 환자 발음 판별을 위한 특징 추출 방법 분석
본 논문에서는 구개열 환자의 장애 발음과 정상인의 발음을 자동으로 구분하여 판별하는데 사용될 수 있는 특징 추출 방법들의 성능을 분석하는 실험에 대하여 소개한다. 이 연구는 발성 장애인의 복지 향상을 추구하며 수행하고 있는 장애 음성 자동 인식 및 복원 소프트웨어 시스템 개발의 기초과정이다. 실험에 사용된 음성 데이터는 정상인의 발음, 구개열 환자의 발음, 그리고 모의 환자의 발음의 세 그룹으로부터 수집된 한국어 단음절로서 14개의 기본 자음과 5개의 복합 자음, 7개 모음이다. 발음의 특징 추출은 LPCC, MFCC, PLP의 세 가지 방법으로 각각 수행하였고, GMM 음향 모델로 인식 훈련을 한 후, 수집된 단음절 데이터를 대상으로 하여 인식 실험을 실시하였다. 실험 결과, 정상인과 구개열 환자의 장애발음을 구별하기 위하여 특징을 추출함에 있어서 MFCC 방법이 전반적으로 가장 우수하였다. 본 연구의 결과는 구개열 환자의 부정확한 발음을 자동으로 인식하고 복원하는 연구와 구개열 장애 발음의 정도를 측정할 수 있는 도구에 대한 연구에 도움이 될 것으로 기대된다.