디지털 라이브러리[ 검색결과 ]
효율적인 분산 복합 이벤트 처리를 위한 탐욕적 규칙 분배 알고리즘
http://doi.org/10.5626/JOK.2019.46.12.1222
복합 이벤트 처리 시스템은 여러 스트림 데이터를 실시간으로 받아 유의미한 복잡한 상황을 이벤트 규칙이나 질의, 연산으로 찾아내고 분석하는 시스템을 말한다. 실시간으로 들어오는 데이터양이 증가하게 되면 여러 스트림 데이터와 이벤트 규칙을 여러 대의 서버에 분배해 처리하게 된다. 하지만 각 서버에 가해질 부하에 대한 고려 없이 스트림 데이터와 이벤트 규칙을 분배하게 되면 스트림 데이터가 과도하게 복제되어 네트워크 입출력에 부하를 주고 분배된 이벤트 규칙과 스트림 데이터를 맞춰보는 시간이 증가하게 된다. 본 논문에서는 이를 막기 위해 효율적인 스트림 데이터 빛 이벤트 규칙 분배 알고리즘을 제안한다. 이 알고리즘은 이벤트 규칙에 점수를 부여하고 점수가 큰 순서대로 이벤트 규칙을 정렬한다. 분배 시에는 주어진 전체 부하 함숫값을 가장 작게 증가시키는 서버에 각 이벤트 규칙을 정렬된 순서대로 하나씩 분배한다. 제안한 알고리즘은 최적화 검증과 성능 실험을 통해 그 우수성을 보였다. 최적화 검증에서는 합성 데이터를 이용해 이 알고리즘이 다른 알고리즘에 비해 최적의 분배 결과에 가장 가깝다는 것을 보인다. 성능 실험에서는 실제 데이터와 이벤트 규칙을 사용한 분산 복합 이벤트 처리 시스템에서 복제율과 지연시간을 다른 대안 알고리즘과 비교해 제안한 알고리즘의 성능 우위를 입증했다.
군집 드론의 안정적 데이터 처리를 위한 오프로딩 기법
http://doi.org/10.5626/JOK.2018.45.10.990
드론 관련 기술의 급속한 발달로 자율 비행이 가능한 드론을 활용한 응용들이 다양하게 개발되고 있다. 드론의 자원 제약적인 특성 때문에 부하가 큰 작업의 수행을 클라우드로 위탁하는 오프로딩 기법들이 제안되었다. 본 논문에서는 다수의 드론을 사용하는 환경에서 수행 완료 시간과 에너지 소모를 고려한 비용 분석을 통해 오프로딩의 효과를 확인한다. 만약 오프로딩 기법을 사용했을 때 작업 수행 완료 시간과 에너지 소모량이 늘어날 경우 이를 오프로딩 하지 않고 각 드론의 협업을 통해 작업을 처리함으로써 안정적이고 효율적인 데이터 처리가 이루어지도록 하였다. 또한 실험을 통해 작업 수행 완료 시간과 에너지 소모가 오프로딩 결정에 어떻게 영향을 주는지를 검증하였다.
IoT 환경에서 데이터 분산 처리를 위한 CEP Rule 배포 알고리즘
http://doi.org/10.5626/JOK.2018.45.7.722
IoT 디바이스가 점점 증가하는 추세에 따라 디바이스에서 발생하는 데이터 또한 기하급수적으로 증가하고 있다. 여기서 발생하는 데이터들을 데이터베이스를 활용한 시스템 구조를 통해 저장, 관리하고 있다. 하지만, 급증하는 데이터들을 관리하기에 기존의 데이터베이스는 유지비용과 실시간성의 측면에서 한계에 부딪히게 되었다. 이런 한계를 극복하기 위해서, 데이터를 네트워크 내부에서 최대한 처리하는 CEP(Complex Event Processing)가 등장하게 되었고, 이를 활용하여 서버와 네트워크 내부에서 함께 데이터 처리를 수행하고 있다. 본 논문에서는 IoT 환경에서 CEP Rule의 배포를 통해 서버의 부담을 줄이고, 네트워크의 성능을 보장할 수 있는 CEP Rule 배포 알고리즘을 제시한다. 제안한 알고리즘의 성능 검증을 위해 OpenWSN 등의 오픈소스와 TelosB 노드를 활용한 소규모의 실험을 수행하고, 알고리즘에 따른 서버 부담의 경감과 데이터 처리 성능을 검증한다.
하둡 및 Spark 기반 공간 통계 핫스팟 분석의 분산처리 방안 연구
http://doi.org/10.5626/JOK.2018.45.2.99
공간통계 분석중 하나인 핫스팟 분석은 “인접해 있는 것은 멀리 있는 것 보다 더 연관성이 있다”는 법칙에 따라 공간속성이나 사건의 공간 패턴을 쉽게 파악할 수 있는 기법 중 하나 이지만, 공간의 인접성이 고려되어야 하므로 분산 처리하기 용이하지 않다. 본 논문에서는 핫스팟 분석의 분산처리 방안을 기술하고 성능을 하둡 및 인메모리 기반인 Spark으로 평가한 결과 단일 시스템 대비 하둡기반 처리는 625.89%, Spark기반 처리는 870.14%의 성능향상을 확인하였으며, 하둡 기반과 Spark기반의 비교에서는 대용량 데이터 셋을 처리 할수록 Spark기반의 성능향상율이 높아짐을 확인하였다.
Squall: 실시간 이벤트와 마이크로-배치의 동시 처리 지원을 위한 TMO 모델 기반의 실시간 빅데이터 처리 프레임워크
최근 다양하고 방대한 양의 데이터를 처리하기 위해 빅데이터의 특성인 5V(Volume, Variety, Velocity, Veracity, Value) 중에서도 속도(Velocity)의 중요성이 강조되면서 대량의 데이터를 빠르고 정확하게 처리하는 기술인 실시간 스트림 처리(Real-time Stream processing)를 위해 많은 연구가 진행되고 있다. 본 논문에서는 실시간 빅데이터 처리를 위해 대표적인 실시간 객체 모델인 TMO(Time-triggered Message-triggered Object) 개념을 도입한 Squall 프레임워크를 제시하고, 단일 노드에서 동작하는 Squall 프레임워크와 그 동작들에 대해 기술한다. TMO는 작업을 수행할 때, 특정 조건에 대해 실시간으로 처리하는 비주기적인 처리방법과 일정 시간 간격동안 주기적인 처리를 지원하는 객체 모델이다. 따라서 Squall 프레임워크는 실시간 빅데이터의 실시간 이벤트 스트림 및 마이크로-배치 처리를 동시에 지원하고,기존 아파치 스톰과 스파크 스트리밍 대비 상대적으로 우수한 성능을 제공한다. 하지만 Squall은 대부분의 프레임워크에서 제공되는 다중 노드에서의 실시간 분산처리를 위한 추가적인 개발이 필요하다. 결론적으로, TMO 모델의 장점은 실시간 빅데이터 처리시 기존 아파치의 스톰이나 스파크 스트리밍의 단점들을 극복할 수 있다. 이러한 TMO 모델은 실시간 빅데이터 처리에 있어 유용한 모델로서의 가능성을 가지고 있다.
K개의 점 데이터를 포함하는 최소MBR 탐색
스마트폰과 같은 GPS센서가 장착된 모바일 기기가 널리 보급되고 있다. 이러한 추세에 따라 트위터나 페이스북과 같은 소셜 미디어에서 GEO태그가 된 메시지 (즉, GPS 위치를 갖는 멀티미디어 메시지)를 손쉽게 작성할 수 있게 되었고 게시자의 위치정보를 포함하는 공간데이터가 급증하고 있다. 그러나 이러한 공간데이터에서 항상 위치 정보와 게시글 내용이 명시적인 연관성을 갖고 있지는 않다. 때문에 키워드와 위치정보 분포의 관련성에 따라 검색결과를 재구성할 필요가 있다. 우리는 크기가 가장 작은 k개의 점 데이터를 포함하는 최소경계사각형(MBR)을 찾음으로써 데이터가 가장 밀집된 사각형을 찾으며, 이는 위치 검색시스템에서 유용하게 사용될 수 있다. 본 논문은 최소경계사각형과 같이 거리가 가까운 2차원 공간데이터의 묶음을 찾기 위해 효율적인 알고리즘을 제안하였고 합성데이터와 실제 데이터를 이용한 실험을 통해 알고리즘의 효율성을 검증하였다.
다양한 의료 분석 방식을 지원하는 효과적 추론 기법 설계 및 적용 지침
다양한 개인 의료 장비들이 등장함에 따라 개인 의료 컨텍스트가 풍부하게 수집되고 있다. 이렇게 수집된 의료 컨텍스트를 분석함으로써 소프트웨어적으로 질병을 진단하기 위한 노력이 이어지고 있다. 본 논문에서는 의료 전문가들이 사용하는 의료 분석 기법을 정형화하고, 각 의료 기법을 실현화하기 위한 추론 기법을 식별하며, 추론기법의 적용 지침을 제시한다. 또한, 의료 기법을 제공하는 추론 시스템을 PoC 수준에서 개발하고, 실제 의료 컨텍스트를 분석하여 질병 진단 실험을 수행함으로써 제시하는 의료분석 기법 및 추론 기법 적용 지침의 실효성과 그 효과를 검증한다.
맵리듀스를 이용한 그리드 기반 인덱스 생성 및 k-NN 조인 질의 처리 알고리즘
맵리듀스는 대용량 데이터 처리를 위한 시스템 안정성과 유용성을 제공한다. 맵리듀스 기반 k-최근접점 조인 질의처리 알고리즘은 두 데이터 집합 R과 S를 기반으로 R의 모든 레코드에 대해 S의 데이터 중 가장 인접한 k개의 레코드를 탐색하는 알고리즘으로써, 대용량 데이터 분석을 위한 중요한 질의 처리 알고리즘이다. 그러나 기존 k-최근접점 조인 질의처리 알고리즘은 높은 인덱스 구축비용 문제로 인해 대용량 데이터 처리에 적합하지 않은 문제점을 지닌다. 따라서, 본 논문에서는 그리드 기반 인덱스 생성 및 k-최근접점 질의 처리 알고리즘을 제안한다. 제안하는 기법은 질의 셀로부터 인접한 데이터만을 찾아 맵리듀스 테스크에 전송함으로써 데이터 전송 및 k-최근접점 연산 오버헤드를 줄인다. 성능평가를 통해, 제안하는 기법이 정확 매칭 질의를 제공하는 동시에 기존 기법에 비해 질의 처리 시간 측면에서 최대 7배의 성능을 개선함을 보인다.