디지털 라이브러리[ 검색결과 ]
KcBERT를 활용한 한국어 음성인식 텍스트 정확도 향상 연구
http://doi.org/10.5626/JOK.2024.51.12.1115
음성 인식 분야에서는 Whisper, Wav2Vec2.0, Google STT와 같은 모델이 널리 사용되고 있다. 그러나 한국어 음성 인식은 복잡한 음운 규칙과 다양한 발음 변이로 인해 성능 향상에 어려움을 겪는다. 이러한 문제를 해결하기 위해 Whisper 모델과 KcBERT 후처리 방식을 결합한 방법을 제안한다. Whisper 모델이 생성한 텍스트에 대해 KcBERT의 양방향 문맥 학습을 적용하여 문맥적 일관성을 높이고, 보다 자연스러운 텍스트로 교정하기 위해 결합하였다. 실험 결과, 후처리를 통해 lean 환경에서 CER이 5.12%에서 1.88%로, Noise 환경에서 22.65%에서 10.17%로 감소하였다. 또한, WER은 Clean 환경에서 13.29%에서 2.71%, Noise 환경에서 38.98%에서 11.15%로 크게 개선되었다. BERTScore 역시 향상되었으며, 한국어 음성 인식에서의 복잡한 음운 규칙 교정과 텍스트 일관성 유지에 효과적임을 입증하였다.
수치 데이터 세트에서 Tomek Links 방법과 Balancing GAN을 결합한 불균형 데이터 문제 개선 기술
http://doi.org/10.5626/JOK.2020.47.10.974
머신러닝은 데이터 분류, 음성인식, 예측 모델 등 다양한 응용 분야에서 좋은 성능으로 유용하게 이용되고 있다. 하지만 학습 데이터 세트의 클래스 간 불균형으로 인해 소수 클래스에 대한 모델의 성능이 저하되는 문제가 있다. 본 논문에서는 불균형 데이터 문제를 해결하고 명확한 결정 경계를 찾기 위해 Balancing GAN과 Tomek Links 방법을 결합한 새로운 데이터 증폭 방법을 제안한다. 그리고 제안된 방법을 검증하기 위해 5개의 데이터 세트를 사용하여 분류 모델에 따른 제안 방법의 성능을 평가하고, 데이터 샘플링과 GAN 기반의 데이터 증폭 기법들과의 성능을 비교하였다. 그 결과 총 25개의 성능 평가중 17개에서 분류 성능이 0.05~0.195 만큼 개선되거나 유지되는 것을 확인하였다. 본 논문에서 제안하는 방법은 불균형 데이터 문제를 해결할 수 있는 새로운 방법으로써의 가능성을 보여주었다.
개인신용정보 표본DB 기반의 대출 현황 분석 및 채무불이행 예측성능 비교
http://doi.org/10.5626/JOK.2019.46.7.627
본 논문은 한국신용정보원의 신용정보 표본DB 시범서비스의 일환인 개인신용정보 표본DB를 이용하여 차주들의 성별, 연령, 기준월, 업권 등에 따른 대출 및 채무불이행 현황을 분석하고 통계자료를 제시한다. 또한, 국내외 은행은 대출 차입자의 채무불이행에 따른 손실을 최소화하는데 주목하고 있음에 따라 개인신용정보 표본DB를 사용하여 차주의 채무불이행을 예측 모델을 생성하고 성능을 평가한다. 특정 달의 채무불이행을 예측하기 위하여 직전 6개월의 차주의 정보 및 대출 정보를 가공하여 특징 데이터를 생성하고 Recurrent Neural Network와 기계학습 알고리즘을 사용하여 채무불이행 예측 모델을 생성하였다. 각 모델의 성능 측정 결과, Recurrent Neural Network가 채무불이행 차주에 대한 Recall이 0.96, AUC가 0.85로 가장 좋은 성능을 보였다.
기계학습 기반의 P2P대출 마감 시간 예측 모델 연구
http://doi.org/10.5626/JOK.2019.46.2.174
최근 온라인플랫폼을 통해 개인끼리의 대출 및 투자가 가능한 P2P대출 이용자가 급증하고 있다. 그러나 P2P대출은 투자자가 금전적 위험을 직접 부담하기 때문에 보다 신중한 투자판단으로 상품이 마감하면서 투자에 실패하기도 한다. 본 논문은 P2P대출 투자 상품에 대한 마감 시간 정보 제공을 위해 투자 상품이 일정 시점으로부터 마감까지 얼마나 걸리는지를 예측한다. 마감 시간을 예측하기 위하여 실제 P2P상품에 대한 투자정보를 기반으로 시계열 데이터와 Step 데이터로 변환하고 기계학습 알고리즘을 사용하여 회귀, 분류, 시계열 예측 모델을 생성하였다. 성능평가 결과 시계열 데이터 기반 모델은 Multi-layer Perceptron 회귀모델과 분류모델이 0.725, 0.703로 가장 높은 성능을 보였으며 Step 데이터 기반 모델 또한 Multi-layer Perceptron 회귀모델과 분류모델이 0.782, 0.651로 가장 높은 성능을 보였다.