검색 : [ keyword: training data ] (2)

능동 학습 기반 교차 프로젝트 결함 예측 시스템에 대한 개선 연구

양태연, 오학주

http://doi.org/10.5626/JOK.2023.50.11.931

본 연구는 교차 프로젝트 결함 예측을 위한 능동 학습 기반 시스템에 대한 실용적 개선 방법을 제안한다. 교차 프로젝트 결함 예측의 성능을 실용적으로 높이기 위해 능동 학습을 적용하는 연구가 시도된 바 있다. 그러나 능동 학습 대상 선정과 결함 예측에 수제 특징을 입력으로 사용하는 전통적 기계학습 모델을 사용했기 때문에 특징 추출에 많은 비용이 들고 성능 한계가 있었으며, 입력 프로젝트의 선택에 따른 성능 편차 문제가 남아있었다. 본 연구에서는 다음의 방법을 제안한다. 첫째, 모델 구축 비용을 낮추고 예측 성능을 높이기 위해 소스 코드를 입력으로 사용할 수 있는 딥러닝 모델을 사용한다. 둘째, 딥러닝 모델로 능동 학습 대상을 선정하기 위한 방법으로 베이지안 합성곱 신경망을 적용한다. 셋째, 다중 프로젝트들로부터 학습 데이터 세트를 자동 추출하는 방법을 적용한다. 본 연구를 7개 오픈 소스 프로젝트들에 적용한 결과, 기존 연구 대비 평균 13.58% 개선된 예측 성능을 확인하였다.

학습 데이터 선별을 위한 오토인코더 기반 학습 개선도 측정 방안

정유나, 황명권, 성원경

http://doi.org/10.5626/JOK.2021.48.2.195

머신러닝 알고리즘은 최근의 우수한 성능에도 불구하고 개발과 사용을 어렵게 하는 단점이 있다. 이는 머신러닝 알고리즘의 최적 모델 개발과 배포까지의 반복적인 과정이 높은 시간 비용을 요구하기 때문이다. 이에 본 논문에서는 이러한 시간 부하를 줄이기 위한 방안으로, 전체 학습 데이터셋 중 일부 데이터를 선별하여 빠르게 학습하면서도 근사 솔루션을 제공할 수 있는 방법에 관하여 논한다. 먼저 학습데이터는 오토인코더에 기반하여 저차원 잠재공간의 특징 벡터로 맵핑된다. 그리고 맵핑된 각 샘플의 위치를 기반으로, 상대적으로 학습하기는 어렵지만 학습 개선도가 높은 샘플은 높은 가중치를 부여받는다. 최종적으로 가중치를 기반으로 한 중요도 샘플링을 수행하여 데이터를 선별하고 이를 학습에 활용한다. 실험결과, 제안하는 방법이 무작위 샘플링에 비해 더 높은 학습 성과를 달성하는 샘플을 선정할 수 있음을 보일 수 있었다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr