디지털 라이브러리[ 검색결과 ]
대규모 계층적 데이터의 중첩 정규화 및 테이블 마이그레이션 자동화 프레임워크
http://doi.org/10.5626/JOK.2023.50.6.521
오픈 데이터 포털에서는 많은 데이터가 계층 구조인 XML, JSON 포맷으로 배포되며, 그 규모가 매우 크다. 이러한 계층적 데이터는 구조 특성상 다수의 중첩(nesting)을 포함한다. 이로 인해, 대규모 오픈 데이터 활용에 제약이 되는 중첩 테이블 정규화 문제와 스케일 제한 문제가 발생한다. 본 논문에서는 계층적 파일들의 테이블 마이그레이션을 위해 오픈소스 ELT 플랫폼인 Airbyte를 채택하고, 이를 자동화하는 새로운 프레임워크를 제안한다. 또한, Airbyte의 중첩 JSON 처리 문제를 최초로 보고하여 문제 해결에 기여한다. 실제 미국 데이터 포털을 대상으로 제안 프레임워크를 평가한 결과, 다수의 중첩이 포함된 구조에 대해서도 정상 동작하며, 자동화 처리 로직의 제공으로 1.6K 이상의 대규모 마이그레이션 처리가 가능함을 보인다. 본 논문의 결과는 계층적 데이터의 중첩 정규화를 지원하고 안정적인 대규모 마이그레이션 기능을 제공하는 매우 실용적인 프레임워크라 사료된다.
인피니밴드 네트워크에서 분산 병렬 그래프 데이터 처리의 성능 개선
http://doi.org/10.5626/JOK.2023.50.4.359
각 객체의 관계를 중시하는 그래프 데이터는 관계형 데이터베이스에서는 찾아낼 수 없는 새로운 규칙이나 연관성 분석에 많이 사용되지만, 복잡한 구조와 방대한 양으로 인해 빠른 처리에는 한계가 있다. 본 논문에서는 이러한 그래프 데이터 처리의 성능 향상을 위해 PIGraph(Pregel and InfiniBandbased Graph processing engine)를 제안한다. PIGraph는 대표적인 그래프 처리 모델인 Pregel 기반 그래프 처리 엔진이다. PIGraph는 분산 그래프 처리의 관리 복잡도 감소를 위해 인피니밴드와 RDMA (Remote Direct Memory Access) 기술을 활용한 분산 병렬 구조를 지원한다. 특히, 세그먼트 단위 전송으로 RDMA 통신을 최적화하여 그래프 데이터의 처리 성능 한계를 개선한다. 성능 평가 결과, PIGraph가 비교 시스템인 Apache Giraph에 비해 최대 190% 이상 빠른 처리 시간을 보임을 확인하였다.
분산 바이너리 베르누이 샘플링의 최적화
http://doi.org/10.5626/JOK.2019.46.12.1322
본 논문은 바이너리 베르누이 샘플링(binary Bernoulli sampling, 이하 BBS)의 성능 향상 방법을 제안한다. BBS는 다수의 입력 소스에서 발생하는 대용량 스트림 처리에 효과적인 샘플링 기법이다. 최근에는 이러한 BBS에 다중 코디네이터 구조를 접목한 아파치 스톰(Apache Storm) 기반 분산 BBS 모델이 제시되었다. 그러나, 해당 모델은 코디네이터 대기 문제가 발생하여 성능 향상에 제한이 있다. 본 논문에서는 이 같은 코디네이터 대기 문제를 다중 분배 구조와 분배자 분리 구조를 도입하여 해결한다. 다중 분배 구조는 하나가 아닌 여러 코디네이터가 분배에 참여하는 것으로, 코디네이터의 대기를 최소화한다. 분배자 분리 구조는 코디네이터에서 분배 기능을 분리하여 처리 성능을 극대화한다. 우리는 제안한 구조를 스톰 기반의 분산 BBS에 구현하여 다양한 실험을 진행하였다. 실험결과는 기존 분산 BBS에 비해 최대 90배까지 성능이 향상됨을 보여주었다.
주성분 분석의 안전한 다자간 계산
최근 대용량 데이터 대상의 프라이버시 보호 데이터 마이닝(privacy-preserving data mining : PPDM)이 활발히 연구되고 있다. 본 논문에서는 민감한 데이터 집합의 상관관계를 파악하는데 널리 사용되는 주성분 분석 기반의 PPDM을 다룬다. 일반적으로 주성분 분석은 모든 데이터를 한 곳에 모아 처리해야 하므로 민감한 데이터가 서로에게 공개되고, 상당한 계산량을 요구하며, 또한 데이터를 모으는 과정에서 많은 통신 오버헤드가 발생한다. 이러한 문제를 해결하기 위하여 본 논문은 데이터를 한 곳에 모으지 않고도 주성분 분석을 안전하게 계산하는 효율적인 방법을 제안한다. 제안하는 방법은 노드들 간에 한정된 정보만을 공유하면서도 원래의 주성분 분석 결과와 동일한 결과를 얻을 수 있다. 또한 안전한 주성분 분석에 저차원 변환을 적용하여 안전한 유사 문서 검색에 사용한다. 마지막으로 다양한 실험을 통해 제안한 방법이 대용량의 다차원 데이터에서 효율적으로 동작함을 확인한다.