검색 : [ keyword: Data Imbalance ] (2)

확장성 있는 분산 딥러닝 학습을 위한 데이터 불균형 최소화 기법

맹산하, 문의현, 박성용

http://doi.org/10.5626/JOK.2023.50.10.836

심층 신경망의 학습은 계산 집약적이고 오랜 시간이 걸리기 때문에, 학습의 가속화를 위해 다수의 GPU가 장착된 GPU 클러스터를 사용하여 학습을 분산시키는 방법이 널리 사용되고 있다. 심층 신경망의 분산 학습은 계산이 가장 느린 straggler 노드에 의해 속도와 확장성이 저하되어 straggler 문제를 해결하기 위한 선행 연구들이 제안되었다. 그러나 기존의 방식은 이미지와 같이 모든 데이터 샘플들이 일정한 크기를 가지고 있다고 가정했기 때문에 영상이나 음성 데이터와 같이 데이터 샘플들의 크기가 서로 다른 불균형 데이터를 사용한 분산 학습의 문제점을 인지하지 못했다. 본 논문에서는 데이터 샘플들 간 크기의 차이로 인해 발생하는 straggler 문제를 발견하고 이를 해결하기 위해 데이터 불균형을 고려한 데이터 불균형 최소화 기법 (Data Imbalance Minimization, DIM) 을 제안한다. 여덟 대의 NVIDIA Tesla T4 GPU가 장착된 클러스터에서 DIM의 성능을 평가한 결과 DIM은 최신 시스템에 비해 최대 1.77배의 학습 속도 향상 및 비슷한 수준의 확장성을 가진다.

철저한 대조 학습 방법을 통한 생성적 적대 신경망의 불균형 데이터 생성 품질 향상

신현준, 이상백, 이규철

http://doi.org/10.5626/JOK.2023.50.4.295

딥러닝(Deep learning) 알고리즘의 성능이 향상되면서 실세계의 다양한 문제를 해결하기 위한 방법으로 사용되고 있다. 실세계를 반영하는 데이터의 경우 사건의 발생 빈도나 수집 난이도에 따라 데이터의 불균형(Imbalance)이 나타날 수 있다. 데이터를 구성하는 클래스의 수가 일정하기 않은 데이터를 불균형 데이터라고 하며, 특히 데이터가 상대적으로 적은 소수 클래스는 딥러닝 알고리즘을 통해 학습하기 어렵다. 최근에는 데이터 증강을 위한 방법으로 생성적 적대 신경망(Generative Adversarial Nets, GANs)이 응용되고 있으며, 소수 클래스 학습을 위해 자기 지도 학습(Self-supervised learning)기반의 사전 학습(Pre-training)이 제안되었다. 하지만 생성 모델(Generative Model)을 학습하는 과정에서 불균형 데이터의 클래스 정보를 활용하기 때문에 소수 클래스의 학습이 제대로 이루어지지 않아 생성 데이터의 품질이 떨어지는 문제가 나타난다. 이러한 문제를 해결하기 위하여 본 논문에서는 유사도 기반의 철저한 대조 학습(Exhaustive Contrastive Learning) 방법을 제안하였다. 제안 방법은 프레쳇 인셉션 거리(Frechet Inception Distance, FID)와 인셉션 점수(Inception Score, IS)를 통해 정량적으로 평가하였다. 본 논문에서 제안하는 방법은 기존 방법보다 프레쳇 인셉션 거리는 16.32, 인셉션 점수는 0.38의 성능 개선을 확인하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr