검색 : [ author: Myunggwon Hwang ] (2)

학습 데이터 선별을 위한 오토인코더 기반 학습 개선도 측정 방안

정유나, 황명권, 성원경

http://doi.org/10.5626/JOK.2021.48.2.195

머신러닝 알고리즘은 최근의 우수한 성능에도 불구하고 개발과 사용을 어렵게 하는 단점이 있다. 이는 머신러닝 알고리즘의 최적 모델 개발과 배포까지의 반복적인 과정이 높은 시간 비용을 요구하기 때문이다. 이에 본 논문에서는 이러한 시간 부하를 줄이기 위한 방안으로, 전체 학습 데이터셋 중 일부 데이터를 선별하여 빠르게 학습하면서도 근사 솔루션을 제공할 수 있는 방법에 관하여 논한다. 먼저 학습데이터는 오토인코더에 기반하여 저차원 잠재공간의 특징 벡터로 맵핑된다. 그리고 맵핑된 각 샘플의 위치를 기반으로, 상대적으로 학습하기는 어렵지만 학습 개선도가 높은 샘플은 높은 가중치를 부여받는다. 최종적으로 가중치를 기반으로 한 중요도 샘플링을 수행하여 데이터를 선별하고 이를 학습에 활용한다. 실험결과, 제안하는 방법이 무작위 샘플링에 비해 더 높은 학습 성과를 달성하는 샘플을 선정할 수 있음을 보일 수 있었다.

LSTRf 기반의 학습 데이터 선정 방안

황명권, 정유나, 성원경

http://doi.org/10.5626/JOK.2020.47.12.1192

본 연구는 자동적이고 지능적인 AI 개발에 요구되는 human-in-the-loop (HITL) 과정의 단축을 위한 것으로, 학습에 긍정적 영향을 미치는 데이터 선정 방법을 다룬다. 이를 위해 학습 데이터의 유사성을 중심으로 2차원 분포를 형성하고, 일정한 비율로 격자를 형성한다. 각 격자 내에서 동일한 클래스 데이터의 분포 일관성을 기준으로 데이터를 선정하기 위하여 LSTRf 기법을 응용하여 적용한다. 이를 통해 선정된 데이터는 CNN 기반의 분류기를 통해 학습하고 그 성능을 평가한다. CIFAR-10을 활용하여 실험하였으며, 격자의 크기, 1회 연산에서의 선택되는 데이터 수를 다양화하여 학습에 미치는 효과를 평가하였다. 선정된 학습 데이터는 임의로 선정한 동일한 크기의 데이터와 비교하였다. 그 결과 격자의 크기가 작을수록(0.008과 0.005 크기) 학습에 긍정적으로 영향을 미치는 것을 확인하였고, 1회 연산에서 선정된 개수가 많을수록 전체적으로 우수해짐을 확인할 수 있었다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr