검색 : [ author: 나현식 ] (1)

수치 데이터 세트에서 Tomek Links 방법과 Balancing GAN을 결합한 불균형 데이터 문제 개선 기술

나현식, 박소희, 최대선

http://doi.org/10.5626/JOK.2020.47.10.974

머신러닝은 데이터 분류, 음성인식, 예측 모델 등 다양한 응용 분야에서 좋은 성능으로 유용하게 이용되고 있다. 하지만 학습 데이터 세트의 클래스 간 불균형으로 인해 소수 클래스에 대한 모델의 성능이 저하되는 문제가 있다. 본 논문에서는 불균형 데이터 문제를 해결하고 명확한 결정 경계를 찾기 위해 Balancing GAN과 Tomek Links 방법을 결합한 새로운 데이터 증폭 방법을 제안한다. 그리고 제안된 방법을 검증하기 위해 5개의 데이터 세트를 사용하여 분류 모델에 따른 제안 방법의 성능을 평가하고, 데이터 샘플링과 GAN 기반의 데이터 증폭 기법들과의 성능을 비교하였다. 그 결과 총 25개의 성능 평가중 17개에서 분류 성능이 0.05~0.195 만큼 개선되거나 유지되는 것을 확인하였다. 본 논문에서 제안하는 방법은 불균형 데이터 문제를 해결할 수 있는 새로운 방법으로써의 가능성을 보여주었다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr