검색 : [ author: Yang-Sae Moon ] (7)

대규모 계층적 데이터의 중첩 정규화 및 테이블 마이그레이션 자동화 프레임워크

김다솔, 길명선, 원희선, 문양세

http://doi.org/10.5626/JOK.2023.50.6.521

오픈 데이터 포털에서는 많은 데이터가 계층 구조인 XML, JSON 포맷으로 배포되며, 그 규모가 매우 크다. 이러한 계층적 데이터는 구조 특성상 다수의 중첩(nesting)을 포함한다. 이로 인해, 대규모 오픈 데이터 활용에 제약이 되는 중첩 테이블 정규화 문제와 스케일 제한 문제가 발생한다. 본 논문에서는 계층적 파일들의 테이블 마이그레이션을 위해 오픈소스 ELT 플랫폼인 Airbyte를 채택하고, 이를 자동화하는 새로운 프레임워크를 제안한다. 또한, Airbyte의 중첩 JSON 처리 문제를 최초로 보고하여 문제 해결에 기여한다. 실제 미국 데이터 포털을 대상으로 제안 프레임워크를 평가한 결과, 다수의 중첩이 포함된 구조에 대해서도 정상 동작하며, 자동화 처리 로직의 제공으로 1.6K 이상의 대규모 마이그레이션 처리가 가능함을 보인다. 본 논문의 결과는 계층적 데이터의 중첩 정규화를 지원하고 안정적인 대규모 마이그레이션 기능을 제공하는 매우 실용적인 프레임워크라 사료된다.

인피니밴드 네트워크에서 분산 병렬 그래프 데이터 처리의 성능 개선

김현종, 길명선, 문양세

http://doi.org/10.5626/JOK.2023.50.4.359

각 객체의 관계를 중시하는 그래프 데이터는 관계형 데이터베이스에서는 찾아낼 수 없는 새로운 규칙이나 연관성 분석에 많이 사용되지만, 복잡한 구조와 방대한 양으로 인해 빠른 처리에는 한계가 있다. 본 논문에서는 이러한 그래프 데이터 처리의 성능 향상을 위해 PIGraph(Pregel and InfiniBandbased Graph processing engine)를 제안한다. PIGraph는 대표적인 그래프 처리 모델인 Pregel 기반 그래프 처리 엔진이다. PIGraph는 분산 그래프 처리의 관리 복잡도 감소를 위해 인피니밴드와 RDMA (Remote Direct Memory Access) 기술을 활용한 분산 병렬 구조를 지원한다. 특히, 세그먼트 단위 전송으로 RDMA 통신을 최적화하여 그래프 데이터의 처리 성능 한계를 개선한다. 성능 평가 결과, PIGraph가 비교 시스템인 Apache Giraph에 비해 최대 190% 이상 빠른 처리 시간을 보임을 확인하였다.

데이터 스트림 분류를 위한 딥러닝 추론 모델의 분산 처리

문효종, 손시운, 문양세

http://doi.org/10.5626/JOK.2021.48.10.1154

다양한 분야에서 데이터 스트림이 생성되고 있으며, 이를 딥러닝에 적용하는 활용 사례가 증가하고 있다. 딥러닝을 사용하여 데이터 스트림을 분류하기 위해서는 서빙(serving)을 통해 모델을 실시간 실행시켜야 한다. 이러한 서빙 모델은 gRPC 또는 HTTP 통신으로 인해 데이터 스트림을 분류에 큰 지연 시간이 발생한다. 또한, 서빙된 모델이 높은 복잡도를 가지는 스태킹 추론 모델이라면, 데이터 스트림 분류에 더 큰 지연시간이 발생한다. 이를 해결하기 위해, 본 논문에서는 아파치 스톰(Apache Storm)을 사용한 데이터 스트림 분류의 분산 처리 해결책을 제안한다. 첫째, 기존 서빙 방법으로 데이터 스트림을 분류할 때 발생하는 지연시간을 줄이기 위해 아파치 스톰 기반 실시간 분산 추론 기법을 제안한다. 실험 결과, 제안한 분산 추론 기법이 기존 서빙 방법에 비해 최대 11배까지 지연시간을 줄인 것으로 나타났다. 둘째, 스태킹을 적용한 악성 URL 탐지 모델로 URL 스트림을 분류할 때의 지연시간을 줄이기 위해, 네 가지 분산처리 기법을 제안한다. 제안하는 분산 처리 기법은 Independent Stacking, Sequential Stacking, Semi-Sequential Stacking, Stepwise-Independent Stacking이다. 실험 결과, 독립적 수행과 순차적 처리의 특성을 가진 Stepwise-Independent Stacking이 가장 작은 지연시간을 보여, URL 스트림 분류에 가장 적합한 것으로 나타났다.

분산 바이너리 베르누이 샘플링의 최적화

조원형, 길명선, 주남수, 문양세

http://doi.org/10.5626/JOK.2019.46.12.1322

본 논문은 바이너리 베르누이 샘플링(binary Bernoulli sampling, 이하 BBS)의 성능 향상 방법을 제안한다. BBS는 다수의 입력 소스에서 발생하는 대용량 스트림 처리에 효과적인 샘플링 기법이다. 최근에는 이러한 BBS에 다중 코디네이터 구조를 접목한 아파치 스톰(Apache Storm) 기반 분산 BBS 모델이 제시되었다. 그러나, 해당 모델은 코디네이터 대기 문제가 발생하여 성능 향상에 제한이 있다. 본 논문에서는 이 같은 코디네이터 대기 문제를 다중 분배 구조와 분배자 분리 구조를 도입하여 해결한다. 다중 분배 구조는 하나가 아닌 여러 코디네이터가 분배에 참여하는 것으로, 코디네이터의 대기를 최소화한다. 분배자 분리 구조는 코디네이터에서 분배 기능을 분리하여 처리 성능을 극대화한다. 우리는 제안한 구조를 스톰 기반의 분산 BBS에 구현하여 다양한 실험을 진행하였다. 실험결과는 기존 분산 BBS에 비해 최대 90배까지 성능이 향상됨을 보여주었다.

주성분 분석의 안전한 다자간 계산

김상필, 이상훈, 길명선, 문양세, 원희선

http://doi.org/

최근 대용량 데이터 대상의 프라이버시 보호 데이터 마이닝(privacy-preserving data mining : PPDM)이 활발히 연구되고 있다. 본 논문에서는 민감한 데이터 집합의 상관관계를 파악하는데 널리 사용되는 주성분 분석 기반의 PPDM을 다룬다. 일반적으로 주성분 분석은 모든 데이터를 한 곳에 모아 처리해야 하므로 민감한 데이터가 서로에게 공개되고, 상당한 계산량을 요구하며, 또한 데이터를 모으는 과정에서 많은 통신 오버헤드가 발생한다. 이러한 문제를 해결하기 위하여 본 논문은 데이터를 한 곳에 모으지 않고도 주성분 분석을 안전하게 계산하는 효율적인 방법을 제안한다. 제안하는 방법은 노드들 간에 한정된 정보만을 공유하면서도 원래의 주성분 분석 결과와 동일한 결과를 얻을 수 있다. 또한 안전한 주성분 분석에 저차원 변환을 적용하여 안전한 유사 문서 검색에 사용한다. 마지막으로 다양한 실험을 통해 제안한 방법이 대용량의 다차원 데이터에서 효율적으로 동작함을 확인한다.

대용량 데이터베이스에서 다차원 인덱스를 사용한 효율적인 다단계 k-NN 검색

이상훈, 김범수, 최미정, 문양세

http://doi.org/

본 논문에서는 다차원 인덱스 기반 다단계 k-NN 검색의 성능 향상 문제를 다룬다. 기존 다단계 k-NN 검색에서는 고차원 객체의 저차원 변환으로 인한 정보 손실로 k-NN 질의 결과 매우 큰 허용치(검색 범위)가 결정되어 범위 질의 결과로 많은 후보가 검색된다. 또한, 많은 후보는 후처리 과정에서 매우 많은 I/O 및 CPU 오버헤드를 발생시킨다. 본 논문에서는 이와 같은 고찰에 기반하여 범위 질의의 허용치를 줄여 후보 개수를 줄이고 이를 통해 성능을 향상시키는 방법을 제안한다. 먼저, k-NN 질의 결과로 결정된 허용치를 고차원 및 저차원 객체간 거리 비율로 강제 축소하여 범위 질의에 사용하는 허용치 축소 (근사적) 해결책을 제안한다. 다음으로, k-NN 질의 계수 k 대신 c?k 를 사용하여 얻은 보다 타이트 (tight)한 허용치로 범위 질의를 수행하는 계수 제어 (정확한) 해결책을 제안한다. 실제 객체 데이터를 사용하여 실험한 결과, 제안한 두 가지 해결책은 기존 다단계 k-NN 검색에 비해 후보 개수와 검색 시간 모두를 크게 향상시킨 것으로 나타났다.

시계열 데이터 기반의 부분 노이즈 제거 윤곽선 이미지 매칭

김범수, 이상훈, 문양세

http://doi.org/

윤곽선 이미지 매칭에서 이미지의 노이즈를 제거하는 것은 직관적이고 정확한 매칭을 위해 매우 중요한 요소이다. 본 논문에서는 윤곽선 이미지 매칭에서 부분 노이즈를 허용하는 문제를 시계열 도메인에서 다룬다. 이를 위해, 먼저 부분 노이즈 제거 시계열(partial denoising time-series)을 정의하여 이미지 도메인이 아닌 시계열 도메인에서 매칭 문제를 신속하게 해결하는 방법을 제안한다. 다음으로, 두 윤곽선 이미지, 즉 질의 시계열과 데이터 시계열에서 구성된 부분 노이즈 제거 시계열들 간에 가질 수 있는 최소거리인 부분 노이즈 제거 거리(partial denoising distance)를 제시한다. 본 논문에서는 이를 두 윤곽선 이미지 간의 유사성 척도로 사용하여 윤곽선 이미지 매칭을 수행한다. 그러나, 부분 노이즈 제거 거리를 측정하기 위해서는 매우 많은 계산이 빈번하게 발생하므로, 본 논문에서는 부분 노이즈 제거 거리의 하한을 구하는 방법을 제안한다. 마지막으로, 부분 노이즈 제거 윤곽선 이미지 매칭의 질의 방식에 따라 범위 질의 매칭과 k-NN 질의 매칭을 각각 제안한다. 실험 결과, 제안한 부분 노이즈 제거 윤곽선 이미지 매칭은 성능을 수 배에서 수십 배까지 향상시킨 것으로 나타났다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr