검색 : [ keyword: GPU ] (17)

GPU와 PIM 구조의 메모리 주소 매핑 방식에 따른 행렬-벡터곱 연산 성능 분석

신지원, 구건재

http://doi.org/10.5626/JOK.2025.52.6.469

Processing-in-Memory(PIM)은 프로세서와 오프칩(off-chip) 메모리 간의 대역폭 한계를 극복하기 위해 제안된 구조로, 메모리 내부의 높은 대역폭과 병렬 처리 능력을 활용해 데이터 연산 성능을 향상시킬 수 있다. 이러한 특성 덕분에 PIM을 기존 GPU와 같은 고성능 프로세서에 결합할 경우 전체 시스템의 성능 향상을 기대할 수 있다. 그러나, PIM과 GPU의 구조적 특성 차이에 따라 두 구조간 메모리 주소 매핑 방식에는 차이가 존재한다. 이로 인해 PIM의 주소 매핑 방식을 GPU에 그대로 적용할 경우 성능 저하가 발생할 가능성이 있다. 본 논문에서는 메모리 집약적 워크로드인 행렬-벡터곱(GEMV) 연산을 통해 PIM의 주소 매핑 방식이 GPU 성능에 미치는 영향을 분석하였다. 실험 결과, PIM의 주소 매핑 방식을 GPU에 적용한 경우 성능과 대역폭이 모두 감소하는 현상이 나타났으며, 주소 매핑 방식의 차이가 GPU-PIM 구조에서의 성능 저하의 원인임을 확인할 수 있었다.

GPU 가속 스케줄링 및 연산 축소에 기반한 효율적인 동적 그래프 처리

송상호, 최지현, 차동현, 이현병, 최도진, 임종태, 복경수, 유재수

http://doi.org/10.5626/JOK.2024.51.12.1125

최근 대용량 동적 그래프를 효율적으로 처리하기 위해 GPU를 활용하는 연구가 활발히 진행되고 있으며, 동적 그래프 처리 시 같은 데이터가 반복적으로 전송되고 처리되는 문제가 발생하고 있다. 본 논문에서는 메모리가 제한된 GPU 환경에서 대규모 동적 그래프를 효율적으로 처리하기 위한 동적 스케줄링 방법과 연산 축소 방법을 제안한다. 동적 스케줄링 방법은 동적 그래프를 분할하여 각 파티션을 활성 정점과 예비 활성 정점을 고려한 스케줄링 방식으로 GPU에 배치함으로써 처리 성능을 극대화한다. 또한, 그래프의 변화 양상을 반영하기 위해 스냅샷을 활용한다. 연산 축소 방법은 스냅샷을 통해 동적 그래프에서 중복된 간선 및 정점의 변경을 감지하여 불필요한 연산을 줄임으로써 GPU의 연산량과 데이터 전송 비용을 최소화하는 기법이다. 이를 통해 동일한 간선이나 정점에 대한 중복 연산을 방지하여 성능을 향상시킨다. 다양한 성능 평가 결과 기존 정적 그래프 처리 기법 대비 평균 280%, 기존 동적 그래프 처리 기법 대비 평균 108%의 성능 향상을 확인하였다.

Hierarchical N:M Sparsity를 통한 DNN 모델 가속화

유승민, 이하윤, 신동군

http://doi.org/10.5626/JOK.2024.51.7.583

N:M sparsity pruning은 NVIDIA의 Sparse Tensor Core 기술을 활용하여 심층 신경망을 압 축하는 강력한 기법입니다. 하지만 이 기법은 하드웨어에 제한으로 인해 압축률이 고정되고 불필요한 입력 데이터 접근이 늘어나며 불균형한 중요 파라미터의 분포를 해결하지 못한다. 본 논문은 vector sparsity를 먼저 적용한 후 N:M sparsity를 적용하는 Hierarchical N:M(HiNM) sparsity를 제안하고, 이 sparsity를 위해 설계된 2-axis channel permutation (2CP) 기법을 제안한다. 실험 결과, HiNM sparsity은 기존 N:M sparsity보다 2배 높은 압축률에서 latency가 평균적으로 37% 감소하였다.

다면체 모델의 바운딩 메시를 사용한 광선 추적 기반 실시간 충돌 검사

고서경, 김영욱, 임인성

http://doi.org/10.5626/JOK.2024.51.2.173

두 다각형 메시(polygonal mesh) 사이의 정밀한 실시간 충돌 검사를 위해서 한 다각형 메시를 구성하는 모든 삼각형과 다른 다각형 메시와의 교차 검사를 수행하면 된다. 하지만, 대용량 다각형 메시는 삼각형의 개수가 매우 빠르게 증가하기 때문에 이러한 단순한 방법으로는 충돌 검사를 실시간으로 수행하기가 어렵다. 본 논문에서는 대용량 다각형 메시를 근사화한 바운딩 메시(bounding mesh)와 GPU 광선 추적 전용 하드웨어를 효과적으로 활용하는 대용량 다각형 메시 간의 실시간 충돌 검사기법을 제안한다. 본 방법에서는 삼각형-물체 교차 계산에 참여하는 삼각형 개수를 크게 줄여주는 바운딩 메시와 대상 물체와의 충돌 검사를 먼저 진행하여, 다각형 메시 간의 충돌 검사를 상대적으로 적은 범위 내에서 적은 삼각형들만 사용하여 진행할 수 있도록 하였다. 또한, 충돌 검사 과정에서 삼각형들 사이의 교차 검사를 GPU 지원 광선 추적 기능을 통해 가속하였다.

분산학습 클러스터의 동적 스케일링 중 발생하는 학습 중단 원인 분석과 이의 완화 기법

임영훈, 유준열, 서의성

http://doi.org/10.5626/JOK.2023.50.7.550

GPU 클러스터의 자원을 효율적으로 관리하기 위해 동적으로 스케일링하는 것이 중요하다. 체크포인트 기반의 중지 후 재개 스케일링이 널리 사용되어 왔지만, 최근 프레임워크는 학습된 모델을 런타임 환경에서 새로운 GPU로 전송하는 체크포인트 없는 접근 방식을 제공한다. 그러나 이 방법은 새로운 GPU를 추가할 때마다 기존의 학습이 중단되며 비효율적인 방식으로 학습 상태를 동기화한다. 이러한 문제를 해결하기 위해 본 논문은 스케일링 중 학습을 이어나가는 오버래핑 기법과 동기화 과정에서 발생하는 불필요한 중복된 학습 상태 전달을 제거하며 GPU들의 토폴로지를 고려하는 병렬적 브로드캐스트 기법을 제안한다. 제안하는 기법은 Elastic Horovod에 구현하여 성능평가를 수행하였고, 스케일링 과정의 72.8%의 시간을 학습 시간으로 대체하여 활용할 수 있으며 학습 상태 동기화의 성능이 최대 31.7% 향상시킴을 확인하였다.

훈련 및 검증 성능 개선을 위한 텐서플로우 병렬 처리 기법

최진서, 강동현

http://doi.org/10.5626/JOK.2022.49.6.407

대부분의 딥 러닝(Deep Learning) 시스템은 모델의 훈련 및 검증을 위해 많은 시간을 소모한다. 그러나, 단일 쓰레드(Single Thread) 기반의 데이터 전처리 및 배치 과정으로 인해 대기 시간(Wait Time)이 발생하고 그 결과GPU 및 CPU의 사용률을 낭비하는 경향이 있다. 본 논문에서는 멀티 쓰레드(Multi Thread) 기반으로 모델의 훈련 및 검증 과정을 효율적으로 수행하기 위한 새로운 기법을 제안한다. 제안 기법은 모델 복사 과정을 사용함으로써 훈련과 검증 과정을 최대한 중첩(Overlapping)시키며, 그 결과 전반적인 CPU와 GPU의 사용률을 향상시킨다. 제안 기법을 평가하기 위해 우리는 텐서플로우(TensorFlow)을 이용하여 합성곱 신경망(CNN)을 구현하였다. 실험 결과, 제안 기법이 기존 기법 대비 전체 훈련 및 검증 시간을 22.4% 단축시키는 것을 확인할 수 있었다.

GPU 기반 고정밀 적응형 정점 깊이 렌더링

강준원, 이성길

http://doi.org/10.5626/JOK.2021.48.7.756

Z-버퍼 알고리즘은 현대 3D 그래픽스 파이프라인에서 가시성 결정에 사용되는 표준 기법이지만, 정밀도의 한계로 인해 Z-fighting 현상이 발생할 수 있다. 기존의 CPU 기반 객체별 투영 행렬 재구성은 해당 현상을 완화할 수 있지만, 객체별로 반복하는 행렬 재구성과 렌더링 커맨드는 복잡한 장면에서 렌더링 파이프라인의 지연을 발생시킨다. 이에 본 논문은 GPU 기반 고정밀 적응형 정점 깊이 렌더링 기법을 소개한다. 제안하는 기법은 CPU 기반 객체별 투영 행렬 재구성 대신 GPU의 정점 셰이더에서 정점별 클립 공간 z축 미세조정을 진행한다. 미세조정된 정점은 렌더링 파이프라인을 통과하며 객체에 위치에 따라 적응적으로 편향된 깊이 값을 생성한다. 본 기법은 깊이 정밀도와 관련된 GPU 폐색 컬링 및 그림자 매핑 기법 등에 응용될 수 있다.

Karp-Rabin 알고리즘을 이용한 순위다중패턴매칭 알고리즘의 병렬 구현

박경빈, 김영호, 심정섭

http://doi.org/10.5626/JOK.2021.48.3.249

길이가 같은 두 문자열은 각 문자의 상대적 순위가 모두 일치할 때 순위동형이라 한다. 순위다중패턴매칭문제는 텍스트 T(|T|=n)와 패턴들의 집합 P̃={P₁,P₂,...,Pk}가 주어졌을 때, P̃의 패턴들과 순위동형인 T의 모든 부분문자열을 찾는 문제이다. 패턴들 중 가장 짧은 패턴의 길이를 m, 가장 긴 패턴의 길이를 m̅, 모든 패턴들의 길이의 합을 M이라 하자. M∈mO(1)인 경우 Karp-Rabin 알고리즘을 이용하여 탐색단계를 평균적으로 O(n)시간에 수행하는 순위다중패턴매칭 알고리즘이 제시되었다. 본 논문에서는 Karp-Rabin 알고리즘을 이용하여 순위다중패턴매칭문제를 병렬적으로 해결하는 구현 방법을 제시한다. 제시하는 병렬 구현은 전처리단계를 O(M)개의 스레드를 사용하여 평균적으로 O(m̅)시간에 수행하며, 탐색단계를 O(n)개의 스레드를 사용하여 평균적으로 O(m)시간에 각각 수행한다. 무작위로 생성된 문자열에 대해 실험한 결과, n=1,000,000, k=1,000, m=5 일 때 본 논문에서 제시하는 병렬 구현이 기존의 순차알고리즘보다 약 201.5배 빠르게 수행되었다.

단일패스 스테레오 렌더링을 위한 양방향 와핑

김재명, 최재원, 이성길

http://doi.org/10.5626/JOK.2019.46.12.1215

스테레오 이미지는 영화, 게임 등에 입체감을 효과적으로 부여할 수 있는 방법이지만, 양안에 대한 렌더링으로 연산량 부하가 증가하는 문제점이 있다. 이미지 와핑을 이용하면 두 장의 이미지에 필요한 연산을 한번으로 줄일 수 있으나, 와핑 시에 발생하는 빈 공간을 채우기 위한 추가적인 과정이 경우에 따라 와핑보다 더 많은 비용을 요구하기도 한다. 이에 본 논문은 빈 공간의 발생을 최소화하는 양방향 와핑 기법과 그 구현을 보인다. 제안하는 기법은 가시성에 따라 기하가 렌더링 되는 뷰를 달리하는 것으로써 샘플링 되는 픽셀 영역을 넓혀 빈 공간의 발생 가능성을 낮추며, 시각적 유사도가 낮은 스테레오 이미지에서 기존 이미지 와핑 기법 대비 높은 품질 향상을 보인다. 본 기법은 높은 확장성을 가지며, 복잡한 기하 및 음영 계산이 필요한 렌더링에 효과적으로 사용될 수 있다.

문자열 집합의 순위주기와 순위경계 병렬 계산

김영호, 심정섭

http://doi.org/10.5626/JOK.2019.46.12.1232

정수알파벳으로 구성된 같은 길이의 두 문자열이 주어졌을 때, 두 문자열의 상대적인 순위가 같으면 두 문자열은 순위동형이라 한다. 문자열 T(∣T∣=n)의 접두사 T[1..p](1≤p≤n)와 순위동형인 문자열이 T 에서 주기적으로 반복되어 나타나면, T[1..p]의 순위관계표현을 T의 순위주기라 한다. 만약 T의 접두사 T[1..p](1 ≤q ≤ n)와 접미사 T[n-q+1..n]이 서로 순위동형이면, T[1..p]의 순위관계표현을 T의 순위경계라 한다. T의 모든 순위주기, 순위경계의 길이는 Z-함수를 이용하여 각각 O(n log) 시간에 계산할 수 있다. 본 논문에서는 정수알파벳으로 구성된 길이가 n인 문자열들의 집합 Ŝ={S₁, S₂,..., Sr}이 주어졌을 때, S의 모든 순위주기, 순위경계의 길이를 각각 O(rn)개의 스레드를 이용하여 O(n) 시간에 계산하는 Z-함수 기반 병렬알고리즘을 제시한다. 실험결과, r=1,000, n=10,000일 때, 다우존스지수 데이터에 대해 Ŝ의 모든 순위주기, 순위경계의 길이를 계산하는 병렬알고리즘은 각각 기존의 순차알고리즘보다 약 3.47배, 약 3.41배 빠르게 수행되었다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr