확장성 있는 분산 딥러닝 학습을 위한 데이터 불균형 최소화 기법 


50권  10호, pp. 836-844, 10월  2023
10.5626/JOK.2023.50.10.836


PDF

  요약

심층 신경망의 학습은 계산 집약적이고 오랜 시간이 걸리기 때문에, 학습의 가속화를 위해 다수의 GPU가 장착된 GPU 클러스터를 사용하여 학습을 분산시키는 방법이 널리 사용되고 있다. 심층 신경망의 분산 학습은 계산이 가장 느린 straggler 노드에 의해 속도와 확장성이 저하되어 straggler 문제를 해결하기 위한 선행 연구들이 제안되었다. 그러나 기존의 방식은 이미지와 같이 모든 데이터 샘플들이 일정한 크기를 가지고 있다고 가정했기 때문에 영상이나 음성 데이터와 같이 데이터 샘플들의 크기가 서로 다른 불균형 데이터를 사용한 분산 학습의 문제점을 인지하지 못했다. 본 논문에서는 데이터 샘플들 간 크기의 차이로 인해 발생하는 straggler 문제를 발견하고 이를 해결하기 위해 데이터 불균형을 고려한 데이터 불균형 최소화 기법 (Data Imbalance Minimization, DIM) 을 제안한다. 여덟 대의 NVIDIA Tesla T4 GPU가 장착된 클러스터에서 DIM의 성능을 평가한 결과 DIM은 최신 시스템에 비해 최대 1.77배의 학습 속도 향상 및 비슷한 수준의 확장성을 가진다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

S. Maeng, E. Moon, S. Park, "A Data Imbalance Minimization Strategy for Scalable Deep Learning Training," Journal of KIISE, JOK, vol. 50, no. 10, pp. 836-844, 2023. DOI: 10.5626/JOK.2023.50.10.836.


[ACM Style]

Sanha Maeng, Euhyun Moon, and Sungyong Park. 2023. A Data Imbalance Minimization Strategy for Scalable Deep Learning Training. Journal of KIISE, JOK, 50, 10, (2023), 836-844. DOI: 10.5626/JOK.2023.50.10.836.


[KCI Style]

맹산하, 문의현, 박성용, "확장성 있는 분산 딥러닝 학습을 위한 데이터 불균형 최소화 기법," 한국정보과학회 논문지, 제50권, 제10호, 836~844쪽, 2023. DOI: 10.5626/JOK.2023.50.10.836.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr