검색 : [ keyword: 데이터 처리 ] (7)

인-메모리 분석 프레임워크의 캐시 성능 이득 예측

정민섭, 한환수

http://doi.org/10.5626/JOK.2021.48.5.479

인-메모리 데이터 분석 프레임워크에서 성능 개선을 위해 계산된 중간값을 캐시하는 기능을 제공한다. 애플리케이션에서 보다 효과적으로 캐싱하기 위해서는 이로 인한 성능 이득이 고려되어야 한다. 기존 프레임워크는 분산 작업 수준의 실행 시간만을 측정하기에 애플리케이션의 캐시 성능 이득을 예측하기에는 제약이 있다. 본 논문에서는 기존의 task 수준 실행 시간 측정법을 병합한 연산자 수준의 시간 측정법과 인풋 데이터 크기에 따라 함수 비용을 예측하는 모델을 제안한다. 또한, 제안한 모델과 애플리케이션의 실행 흐름을 기반으로 캐싱된 데이터셋으로 인한 성능 이득 예측법도 제안한다. 제안한 모델과 예측법은 캐시 성능 이득을 고려한 캐싱 최적화의 기회를 제공한다. 제안한 연산비용모델은 10x 인풋 데이터에서 평균 7.3%의 오차를 보였으며, 모델을 통해 예측한 성능 이득은 실제 성능 이득과 24% 이내의 차이를 보였다.

효율적인 분산 복합 이벤트 처리를 위한 탐욕적 규칙 분배 알고리즘

신유주, 이재길

http://doi.org/10.5626/JOK.2019.46.12.1222

복합 이벤트 처리 시스템은 여러 스트림 데이터를 실시간으로 받아 유의미한 복잡한 상황을 이벤트 규칙이나 질의, 연산으로 찾아내고 분석하는 시스템을 말한다. 실시간으로 들어오는 데이터양이 증가하게 되면 여러 스트림 데이터와 이벤트 규칙을 여러 대의 서버에 분배해 처리하게 된다. 하지만 각 서버에 가해질 부하에 대한 고려 없이 스트림 데이터와 이벤트 규칙을 분배하게 되면 스트림 데이터가 과도하게 복제되어 네트워크 입출력에 부하를 주고 분배된 이벤트 규칙과 스트림 데이터를 맞춰보는 시간이 증가하게 된다. 본 논문에서는 이를 막기 위해 효율적인 스트림 데이터 빛 이벤트 규칙 분배 알고리즘을 제안한다. 이 알고리즘은 이벤트 규칙에 점수를 부여하고 점수가 큰 순서대로 이벤트 규칙을 정렬한다. 분배 시에는 주어진 전체 부하 함숫값을 가장 작게 증가시키는 서버에 각 이벤트 규칙을 정렬된 순서대로 하나씩 분배한다. 제안한 알고리즘은 최적화 검증과 성능 실험을 통해 그 우수성을 보였다. 최적화 검증에서는 합성 데이터를 이용해 이 알고리즘이 다른 알고리즘에 비해 최적의 분배 결과에 가장 가깝다는 것을 보인다. 성능 실험에서는 실제 데이터와 이벤트 규칙을 사용한 분산 복합 이벤트 처리 시스템에서 복제율과 지연시간을 다른 대안 알고리즘과 비교해 제안한 알고리즘의 성능 우위를 입증했다.

군집 드론의 안정적 데이터 처리를 위한 오프로딩 기법

민홍, 김봉재, 허준영, 정진만

http://doi.org/10.5626/JOK.2018.45.10.990

드론 관련 기술의 급속한 발달로 자율 비행이 가능한 드론을 활용한 응용들이 다양하게 개발되고 있다. 드론의 자원 제약적인 특성 때문에 부하가 큰 작업의 수행을 클라우드로 위탁하는 오프로딩 기법들이 제안되었다. 본 논문에서는 다수의 드론을 사용하는 환경에서 수행 완료 시간과 에너지 소모를 고려한 비용 분석을 통해 오프로딩의 효과를 확인한다. 만약 오프로딩 기법을 사용했을 때 작업 수행 완료 시간과 에너지 소모량이 늘어날 경우 이를 오프로딩 하지 않고 각 드론의 협업을 통해 작업을 처리함으로써 안정적이고 효율적인 데이터 처리가 이루어지도록 하였다. 또한 실험을 통해 작업 수행 완료 시간과 에너지 소모가 오프로딩 결정에 어떻게 영향을 주는지를 검증하였다.

IoT 환경에서 데이터 분산 처리를 위한 CEP Rule 배포 알고리즘

박성훈, 정상화

http://doi.org/10.5626/JOK.2018.45.7.722

IoT 디바이스가 점점 증가하는 추세에 따라 디바이스에서 발생하는 데이터 또한 기하급수적으로 증가하고 있다. 여기서 발생하는 데이터들을 데이터베이스를 활용한 시스템 구조를 통해 저장, 관리하고 있다. 하지만, 급증하는 데이터들을 관리하기에 기존의 데이터베이스는 유지비용과 실시간성의 측면에서 한계에 부딪히게 되었다. 이런 한계를 극복하기 위해서, 데이터를 네트워크 내부에서 최대한 처리하는 CEP(Complex Event Processing)가 등장하게 되었고, 이를 활용하여 서버와 네트워크 내부에서 함께 데이터 처리를 수행하고 있다. 본 논문에서는 IoT 환경에서 CEP Rule의 배포를 통해 서버의 부담을 줄이고, 네트워크의 성능을 보장할 수 있는 CEP Rule 배포 알고리즘을 제시한다. 제안한 알고리즘의 성능 검증을 위해 OpenWSN 등의 오픈소스와 TelosB 노드를 활용한 소규모의 실험을 수행하고, 알고리즘에 따른 서버 부담의 경감과 데이터 처리 성능을 검증한다.

하둡 및 Spark 기반 공간 통계 핫스팟 분석의 분산처리 방안 연구

김창수, 이주섭, 황규문, 성효진

http://doi.org/10.5626/JOK.2018.45.2.99

공간통계 분석중 하나인 핫스팟 분석은 “인접해 있는 것은 멀리 있는 것 보다 더 연관성이 있다”는 법칙에 따라 공간속성이나 사건의 공간 패턴을 쉽게 파악할 수 있는 기법 중 하나 이지만, 공간의 인접성이 고려되어야 하므로 분산 처리하기 용이하지 않다. 본 논문에서는 핫스팟 분석의 분산처리 방안을 기술하고 성능을 하둡 및 인메모리 기반인 Spark으로 평가한 결과 단일 시스템 대비 하둡기반 처리는 625.89%, Spark기반 처리는 870.14%의 성능향상을 확인하였으며, 하둡 기반과 Spark기반의 비교에서는 대용량 데이터 셋을 처리 할수록 Spark기반의 성능향상율이 높아짐을 확인하였다.

대용량 데이터 처리를 위한 고속 분산 인메모리 플랫폼 기반 재귀적 질의 알고리즘들의 구현 및 비교분석

강민서, 김재성, 이재길

http://doi.org/

재귀적 질의 알고리즘은 소셜네트워크 서비스의 도달가능 질의와 같은 많은 응용프로그램에 사용된다. 하지만 최근에 소셜네트워크 서비스의 규모가 커짐에 따라 그래프 데이터의 크기 또한 커지고 있다. 따라서 재귀적 질의 알고리즘을 싱글 머신에서 가동하는 것이 거의 불가능해졌다. 본 논문에서는 이러한 문제점을 해결하기 위해서 고속 분산 인메모리 플랫폼인 스파크와 트위스터에서 재귀적 질의 알고리즘을 구현하였다. 구현된 알고리즘은 아마존 EC2 머신 50대에서 Real-world 데이터 셋인 LiveJournal과 ClueWeb으로 실험하였다. 실험결과 상대적으로 노드 수는 적고 평균 차수(degree)는 높은 LiveJournal 데이터 셋에서는 스파크에서 구현된 재귀적 알고리즘의 성능이 트위스터의 것보다 좋았다. 그리고 상대적으로 노드 수는 많고 평균 차수는 낮은 ClueWeb 데이터 셋에서는 트위스터에서 구현된 재귀적 알고리즘의 성능이 스파크의 것보다 좋았다.

다양한 의료 분석 방식을 지원하는 효과적 추론 기법 설계 및 적용 지침

김문권, 라현정, 김수동

http://doi.org/

다양한 개인 의료 장비들이 등장함에 따라 개인 의료 컨텍스트가 풍부하게 수집되고 있다. 이렇게 수집된 의료 컨텍스트를 분석함으로써 소프트웨어적으로 질병을 진단하기 위한 노력이 이어지고 있다. 본 논문에서는 의료 전문가들이 사용하는 의료 분석 기법을 정형화하고, 각 의료 기법을 실현화하기 위한 추론 기법을 식별하며, 추론기법의 적용 지침을 제시한다. 또한, 의료 기법을 제공하는 추론 시스템을 PoC 수준에서 개발하고, 실제 의료 컨텍스트를 분석하여 질병 진단 실험을 수행함으로써 제시하는 의료분석 기법 및 추론 기법 적용 지침의 실효성과 그 효과를 검증한다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr