디지털 라이브러리[ 검색결과 ]
분산병렬 클러스터 컴퓨팅을 이용한 GVCF(Genome Variant Call Format) 파일의 정렬 및 병합 방법
http://doi.org/10.5626/JOK.2021.48.3.358
차세대 시퀀싱(next-generation sequencing, NGS) 기법의 발달로 인하여 방대한 유전체 데이터의 분산, 병렬처리가 필수적인 방법론으로 대두되고 있다. NGS 유전체 데이터 처리는 데이터 규모로 인하여 일반적으로 매우 긴 실행 시간을 필요로 한다. 본 논문에서는 GVCF 파일 정렬/병합 실행 시간을 단축하기 위하여 분산병렬 클러스터 컴퓨팅을 이용한 새로운 GVCF 파일 정렬/병합 모듈을 제안한다. 제안하는 모듈에서는 분산병렬 클러스터인 Spark를 사용하며, 클러스터 내의 자원을 효율적으로 사용하기 위해 GVCF 파일의 특성을 고려한 두 단계의 과정으로 정렬/병합을 진행한다. 성능 평가를 위하여 GATK의 Combine-GVCFs 모듈과 제안하는 모듈의 GVCF 파일의 개수에 따른 정렬/병합 실행시간을 측정하여 비교 및 평가를 진행하였다. 실험 결과에 의하여 제안하는 방식이 실행시간을 매우 효율적으로 단축시키고 있음을 확인하였으며, 제안하는 방식의 유용성을 입증하였다.
PARPA: 고성능 컴퓨팅을 위한 이기종 아키텍처 동시 사용 프레임워크
http://doi.org/10.5626/JOK.2019.46.9.876
GPU는 높은 연산 성능으로 인하여 단순히 그래픽 연산에만 국한되지 않고, 연산 중심의 작업에도 널리 활용되고 있다. CPU와 GPU를 동시에 사용하는 것 자체는 어려운 일이 아니지만, 이기종 프로세서 사이에서 작업을 분배하고 연산에 대한 분담 비율을 조정하는 것은 쉽지 않으며 이는 성능 향상의 중대한 척도이다. 본 논문에서는 이러한 어려움을 쉽게 해결하기 위해 고안한 새로운 프레임워크인 PARPA 프레임워크를 제안한다. PARPA 프레임워크는 간단한 방법으로 애플리케이션의 CPU, GPU 동시 사용을 가능하게 하며, 이를 통해 전반적인 시스템 자원을 효율적, 효과적으로 사용할 수 있도록 한다. 또한, 실행중인 애플리케이션의 특성 및 각 아키텍처 유닛의 특성과 실시간 부하도에 따라 자동으로 로드 밸런싱을 수행한다. 실험 결과에 따르면 PARPA 프레임워크를 적용한 애플리케이션은 최대 3.48배 높은 성능을 달성하였다.
시간차 학습을 이용한 단어 감정 값 측정법 연구
http://doi.org/10.5626/JOK.2018.45.12.1287
시간차(temporal-difference) 학습은 강화학습의 핵심적인 알고리즘으로 마르코프 체인 모형에서 상태의 가치를 실시간으로 측정하는데 유용한 방법론을 제공한다. 이 방법론에서 활용되는 마르코프 모형은 감쇄 비(discount factor)를 사용하여 보상이 주어지는 시점과 가까운 상태일수록 보상 값에 대해 더 많은 가중치를 주게 된다. 본 논문에서는 텍스트의 어떤 어휘가 갖는 감정 값을 측정하는데 있어 시간차학습이 기존의 베이즈 확률을 이용하는 방법보다 상대적으로 유용함을 보이고자 한다. 이는 시간차 학습이 본질적으로 점증적(incremental) 처리이며 감쇄 비를 통해 부여할 감정 값의 가중치를 조절할 수 있기 때문이다. 본 논문은 영화평 자료를 이용하여 이 방법의 효과를 간접적인 방법과 직접적인 방법 모두에서 검증하였으며, 이 방법이 대용량의 자료에 적용 가능함(scalable)을 보이기 위해 비동기 병렬처리 방식으로도 이 방법의 효과가 유지됨을 검증하였다.
Effective Parallel LiDAR Triangulated Irregular Network Construction Method Using Convex Boundary Triangle
Permata Nur Rizki, Sangyoon Oh
http://doi.org/10.5626/JOK.2018.45.8.761
TIN(Triangulated Irregular Network) 모델은 연속 삼각형들로 정보를 표현하는 모델로서, 측정된 점 데이터로부터 지표면을 표현하는데 보편적으로 사용되는 그리드 모델 대비 해상도와 유연성 측면에서 강점을 가지고 있어서 최근 다양한 디지털 지도를 생성하는데 사용되고 있다. 그러나, TIN 모델을 생성하기 위해서는 많은 양의 반복 계산이 필요하며, 따라서 LiDAR 데이터와 같이 대용량 센싱 정보로부터 TIN을 생성하는 데에는 일반적인 순차방식 대비 보다 효과적인 처리 방안이 필요하다. 본 연구에서는 Convex Boundary Triangle을 사용하여 병렬 처리를 위한 효과적인 data decomposition을 수행하고, MapReduce 병렬 처리 방식을 사용해서 TIN을 생성하는 방안을 소개한다. 본 제안방식은 convex boundary 정보에 따른 데이터분할, Delaunay 특성 만족 검증, 그리고 merge 단계로 이루어져 있으며, 제안 방식의 성능 검증을 위해서 Apache Spark 플랫폼 기반으로 알고리즘을 구현하였다. 처리 성능과 확장성 관련 실험을 통해 본 제안 방식이 기존 방식 대비 merging 처리 시간을 평균 16.2% 줄였음을 확인하였다.
비대칭 멀티코어 시스템 상의 HEVC 병렬 디코딩 최적화를 위한 타일 분할 기법
최근 비디오 시스템은 초고해상도 영상의 사용으로 병렬처리의 필요성이 대두되고 있고, 시스템은 ARM big.LITTLE 같은 비대칭 처리능력을 지닌 컴퓨팅 시스템이 도입되고 있다. 따라서, 이 같은 비대칭 컴퓨팅 환경에 최적화된 초고해상도 UHD 비디오 병렬처리 기법이 필요한 시점이다. 본 논문은 인코딩/디코딩 시에 비대칭 컴퓨팅 환경에 최적화 된 HEVC 타일(Tile) 분할 기법을 제안한다. 제안하는 방식은 (1) 비대칭 CPU 코어들의 처리능력과 (2) 비디오 크기별 연산 복잡도 분석 모델을 분석하여, (3) 각 코어에 최적화된 크기의 타일을 할당함으로써, 처리속도가 빠른 CPU 코어와 느린 코어의 인코딩/디코딩 시간차를 최소화한다. 이를 ARM기반의 비대칭 멀티코어 플랫폼에서 4K UHD 표준 영상을 대상으로 실험하였을 때, 평균 약 20%의 디코딩 시간 개선이 발생함을 확인하였다.
비정렬 격자 볼륨 렌더링을 위한 다중코어 CPU기반 메모리 효율적 광선 투사 병렬 알고리즘
본 논문은 비정렬 격자 볼륨 렌더링을 위한 다중 코어 CPU기반의 메모리 효율적 광선 투사병렬처리 알고리즘을 제안한다. 본 연구는 Bunyk 광선 투사(ray casting) 알고리즘에 기반을 두며, Bunyk 알고리즘의 높은 메모리 소모량 문제를 개선하기 위해 스레드별로 고정된 크기의 지역 버퍼를 할당한다. 지역 버퍼는 최근 방문된 면(face)의 정보를 저장하며, 이 정보는 다른 광선들에 의해 재사용되거나 다른 면의 정보로 대체된다. 지역 버퍼에 저장된 정보의 활용률을 높이기 위해 본 연구는 이미지 평면을 기반으로 일관성(coherency)이 높은 광선들을 하나의 광선 그룹으로 묶고, 생성된 광선 그룹들을 스레드들에게 분배한다. 각각의 스레드들은 할당 받은 광선 그룹들을 지역 버퍼를 활용하여 독립적으로 처리한다. 본 연구는 또한 지역 버퍼 활용률을 더욱 높이기 위해 면의 번호에 기반을 둔 해시 함수를 제안한다. 본 연구의 효용성을 확인하기 위해 제안하는 알고리즘을 서로 다른 크기의 비정렬 격자에 적용하였으며, 면 정보 저장을 위해 Bunyk 알고리즘 대비 약 6%의 메모리만 사용하여 정확한 볼륨 렌더링을 수행할 수 있었다. 이처럼 훨씬 적은 메모리 사용에도 불구하고 Bunyk 알고리즘과 대등한 성능을 보여주었으며, 대용량 데이터에 대해서는 최대 22% 높은 성능을 보여주었다. 이는 본 연구의 효용성 및 대용량 데이터의 볼륨 렌더링에 대한 적합성을 증명하는 결과이다.
식이 데이터 분석을 위한 분산 컴퓨팅 문제풀이환경 설계
개인의 건강과 삶의 질의 향상을 위해 웰니스에 대한 사람들의 관심이 증가하고 있다. 개인의 건강 데이터 분석을 위해 체중, BMI, 혈압과 같은 신체 측정 데이터를 사용하거나 일상생활의 식사 기록이나 운동량 기록으로 축적된 데이터를 사용한다. 축적된 건강 데이터는 개인이 가진 잠재적인 질병을 예측하거나 식사 또는 운동 패턴의 분석이 가능하다. 식품 영양학 분야에서는 여러 명의 식이 데이터와 건강정보를 설문을 통해 수집하여 입력 데이터에 대한 하나의 가설을 세우고 여러 통계 분석을 통해 가설을 검증하는 방식으로 데이터 분석 실험을 진행한다. 한편, 과학자들의 실험의 편리성을 위한 문제풀이환경에 대한 연구가 활발히 진행되고 있다. 본 논문에서는 식품 영양학적으로 식이 데이터 분석의 효율적인 실험환경을 위한 문제풀이환경을 설계한다. 제안된 문제풀이 환경은 반복적인 실험 단계를 자동화하고 순차적인 작업을 병렬 수행 가능하도록 분산 컴퓨팅 환경에 배치하여 전체 실험의 속도를 높인다.
다중 GPU를 이용한 R-tree의 병렬 범위 질의 처리 기법
다차원의 데이터를 색인하기 위해 처음 R-tree가 제안된 이후 다양한 방법으로 질의 성능을 향상시키기 위한 많은 연구가 이루어졌다. 그 가운데 다중프로세서를 이용한 병렬 기법으로 질의 성능을 향상시킨 GPU기반의 R-tree가 제안되었다. 하지만 GPU가 갖는 물리적 메모리 크기의 한계가 있어 데이터의 크기가 제한된다. 이에 본 논문에서는 다중 GPU를 이용한 R-tree의 병렬 범위 질의 처리 기법인 MGR-tree 제안한다. 제안하는 MGR-tree는 기존의 GPU기반의 R-tree 질의 처리 기법을 기반으로 하여 다중 GPU에서 질의 처리를 가능하게 R-tree의 노드를 다중 GPU상에 분할하여 분산 처리 하였다. 실험을 통해 MGR-tree는 GPU에서의 선형검색에 비해 최대 9.1배, GPU기반 R-tree에 비해 최대 1.6배 가량의 성능이 향상된 것을 확인하였다.