검색 : [ author: 박소희 ] (3)

수치 데이터 세트에서 Tomek Links 방법과 Balancing GAN을 결합한 불균형 데이터 문제 개선 기술

나현식, 박소희, 최대선

http://doi.org/10.5626/JOK.2020.47.10.974

머신러닝은 데이터 분류, 음성인식, 예측 모델 등 다양한 응용 분야에서 좋은 성능으로 유용하게 이용되고 있다. 하지만 학습 데이터 세트의 클래스 간 불균형으로 인해 소수 클래스에 대한 모델의 성능이 저하되는 문제가 있다. 본 논문에서는 불균형 데이터 문제를 해결하고 명확한 결정 경계를 찾기 위해 Balancing GAN과 Tomek Links 방법을 결합한 새로운 데이터 증폭 방법을 제안한다. 그리고 제안된 방법을 검증하기 위해 5개의 데이터 세트를 사용하여 분류 모델에 따른 제안 방법의 성능을 평가하고, 데이터 샘플링과 GAN 기반의 데이터 증폭 기법들과의 성능을 비교하였다. 그 결과 총 25개의 성능 평가중 17개에서 분류 성능이 0.05~0.195 만큼 개선되거나 유지되는 것을 확인하였다. 본 논문에서 제안하는 방법은 불균형 데이터 문제를 해결할 수 있는 새로운 방법으로써의 가능성을 보여주었다.

개인신용정보 표본DB 기반의 대출 현황 분석 및 채무불이행 예측성능 비교

박소희, 최대선

http://doi.org/10.5626/JOK.2019.46.7.627

본 논문은 한국신용정보원의 신용정보 표본DB 시범서비스의 일환인 개인신용정보 표본DB를 이용하여 차주들의 성별, 연령, 기준월, 업권 등에 따른 대출 및 채무불이행 현황을 분석하고 통계자료를 제시한다. 또한, 국내외 은행은 대출 차입자의 채무불이행에 따른 손실을 최소화하는데 주목하고 있음에 따라 개인신용정보 표본DB를 사용하여 차주의 채무불이행을 예측 모델을 생성하고 성능을 평가한다. 특정 달의 채무불이행을 예측하기 위하여 직전 6개월의 차주의 정보 및 대출 정보를 가공하여 특징 데이터를 생성하고 Recurrent Neural Network와 기계학습 알고리즘을 사용하여 채무불이행 예측 모델을 생성하였다. 각 모델의 성능 측정 결과, Recurrent Neural Network가 채무불이행 차주에 대한 Recall이 0.96, AUC가 0.85로 가장 좋은 성능을 보였다.

기계학습 기반의 P2P대출 마감 시간 예측 모델 연구

박소희, 최대선

http://doi.org/10.5626/JOK.2019.46.2.174

최근 온라인플랫폼을 통해 개인끼리의 대출 및 투자가 가능한 P2P대출 이용자가 급증하고 있다. 그러나 P2P대출은 투자자가 금전적 위험을 직접 부담하기 때문에 보다 신중한 투자판단으로 상품이 마감하면서 투자에 실패하기도 한다. 본 논문은 P2P대출 투자 상품에 대한 마감 시간 정보 제공을 위해 투자 상품이 일정 시점으로부터 마감까지 얼마나 걸리는지를 예측한다. 마감 시간을 예측하기 위하여 실제 P2P상품에 대한 투자정보를 기반으로 시계열 데이터와 Step 데이터로 변환하고 기계학습 알고리즘을 사용하여 회귀, 분류, 시계열 예측 모델을 생성하였다. 성능평가 결과 시계열 데이터 기반 모델은 Multi-layer Perceptron 회귀모델과 분류모델이 0.725, 0.703로 가장 높은 성능을 보였으며 Step 데이터 기반 모델 또한 Multi-layer Perceptron 회귀모델과 분류모델이 0.782, 0.651로 가장 높은 성능을 보였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr