검색 : [ author: 박영택 ] (41)

신뢰값 기반 대용량 트리플 처리를 위한 스파크 환경에서의 RDFS 온톨로지 추론

박현규, 이완곤, 바트셀렘, 박영택

http://doi.org/

최근 인터넷과 디바이스의 발전으로 지식 정보의 양이 방대해 지면서 대용량 온톨로지를 이용한 추론 연구가 활발히 진행되고 있다. 일반적으로 트리플로 표현되는 빅데이터는 기계학습 프로그램이나 지식 공학자가 각 트리플의 신뢰도를 측정하여 제공한다. 하지만 수집된 데이터는 불확실한 데이터를 포함하고 있으며, 이러한 데이터를 추론하는 것은 불확실성을 내포한 추론 결과를 초래할 수 있다. 본 논문에서는 불확실성 문제를 해결하기 위해 수집된 데이터에 대한 신뢰의 정도를 나타내는 신뢰값(Confidence Value)를 이용한 RDFS 규칙 추론 방법에 대하여 설명하고, 메모리 기반의 분산 클러스터 프레임워크인 스파크(Spark)를 기반으로 데이터의 불확실성에 대한 고려를 하지 않는 기존의 추론 방법과 달리 신뢰값 계산에 대한 방법을 응용하여 RDFS 규칙을 통해 추론되는 새로운 데이터의 신뢰값을 계산하며, 계산된 신뢰값은 추론된 데이터에 대한 불확실성을 나타낸다. 제안하는 추론 방법의 성능을 검증하기 위해 온톨로지 추론과 검색 속도를 평가할 때 활용되는 공식 데이터인 LUBM을 대상으로 신뢰값을 추가하여 실험을 수행하였으며, 가장 큰 데이터인 LUBM3000을 수행하였을 때 1179초의 추론시간이 소요되었고, 초당 350K 트리플을 처리할 수 있는 성능을 보였다.

Spark 프레임워크를 적용한 대용량 SHIF 온톨로지 추론 기법

김제민, 박영택

http://doi.org/

지식 관리 시스템을 운영하기 위해서는 대량의 지식 정보를 자동으로 추론 및 관리하는 기술이 필요하다. 현재, 이러한 시스템의 대다수는 컴퓨터간의 지식 정보를 자동으로 교환하고 스스로 새로운 지식을 추론하기 위해 온톨로지를 적용하고 있다. 따라서 대용량의 온톨로지를 대상으로 새로운 정보를 추론하는 효율적인 기술이 요구되고 있다. 본 논문은 분산 클러스터의 메모리상에서 MapReduce와 유사한 작업을 수행하는 Spark 프레임워크를 적용하여, SHIF 수준으로 작성된 대용량의 온톨로지를 규칙 기반으로 추론하는 기술에 대해서 제안한다. 이에 본 논문은 다음 3 가지에 초점을 맞추어 설명을 한다. 클러스터내의 분산된 메모리상에서 대용량 추론을 실시하기 위해서, 먼저 각 추론 규칙에 따라 대용량의 온톨로지 트리플을 효과적으로 분류하여 적재하기 위한 자료구조, 두 번째 규칙간의 종속 관계와 상호 연관성에 따른 규칙 실행 순서와 반복 조건 정의, 마지막으로 규칙 실행에 필요한 명령을 정의하고 이러한 명령어를 실행하여 추론을 수행하는 알고리즘에 대해 설명한다. 제안하는 기법의 효율성을 검증하기 위해, 온톨로지 추론과 검색 속도를 평가하는 공식 데이터인 LUBM을 대상으로 실험을 수행하였다. 대표적인 분산 클러스터 기반 대용량 온톨로지 추론 엔진인 WebPie와 비교 실험한 결과, LUBM에 대해서 WebPie의 추론 처리량이 553 트리플/초 인데 비해 284배 개선된 157k 트리플/초의 성능 향상이 있었다.

분산 메모리 시스템에서의 SPARQL 질의 처리

작바랄 바트셀렘, 이완곤, 김강필, 박영택

http://doi.org/

본 논문에서는 functional 프로그래밍과 분산 메모리 환경인 Spark를 통해 SPARQL 질의문 처리의 오버헤드를 줄일 수 있는 방법을 제안한다. 최근 몇 년간 시멘팁웹의 RDF 온톨로지 데이터는 폭발적으로 증가하고 있기 때문에, 대용량 온톨로지 데이터에 대한 질의문을 효율적으로 처리할 수 있는 방법이 주요 쟁점으로 떠오르고 있다. SPARQL 질의문 처리에 대한 기존의 연구들은 하둡의 맵리듀스 프레임워크에 초점을 맞추고 있다. 그러나 하둡은 분산 파일 처리를 기반의 작업을 수행하므로 성능 저하가 발생할 수 있다. 따라서 질의문 처리 속도를 향상 시키기 위해 본 논문에서는 분산 메모리 시스템을 통해 질의문을 처리할 수 있는 방법을 제안한다. 또한 SPARQL 질의어 사이의 Binding 값을 Propagation하기 위해서 Spark의 Join방식, Functional 프로그램의 Map, Filter 방식, Spark의 캐시 기능을 활용 하는 방식을 제안하고 있다. 본 논문의 실험 결과는 다른 기법들과 비교하여 높은 성능을 얻었다. 특히 현재 가장 빠른 성능을 보이는 SPARQL 질의 엔진인 Sempala와 유사하다는 결과를 얻었다.

인메모리 기반 병렬 컴퓨팅 그래프 구조를 이용한 대용량 RDFS 추론

전명중, 소치승, 바트셀렘, 김강필, 김진, 홍진영, 박영택

http://doi.org/

근래에 들어 풍부한 지식베이스를 구축하기 위한 대용량 RDFS 추론에 대한 관심이 높아지면서 기존의 단일 머신으로는 대용량 데이터의 추론 성능을 향상시키기에 한계가 있다. 그래서 분산 환경에서 의 RDFS 추론 엔진 개발이 활발히 연구되고 있다. 하지만 기존의 분산 환경 엔진은 실시간 처리가 불가능 하며 구현이 어렵고 반복 작업에 취약하다. 본 논문에서는 이러한 문제를 극복하기 위해 병렬 그래프 구조 를 사용한 인-메모리 분산 추론 엔진 구축 방법을 제안한다. 트리플 형태의 온톨로지는 기본적으로 그래프 구조를 가지고 있으므로 그래프 구조 기반의 추론 엔진을 설계하는 것이 직관적이다. 또한 그래프 구조를 활용하는 오퍼레이터를 활용하여 RDFS 추론 규칙을 구현함으로써 기존의 데이터 관점과 달리 그래프 구조의 관점에서 설계할 수 있다. 본 논문에서 제안한 추론 엔진을 평가하기 위해 LUBM1000(1억 3천 3백만 트리플, 17.9GB), LUBM3000(4억 1천 3백만 트리플, 54.3GB)에 대해 추론 속도를 실험을 하였으며 실 험결과, 비-인메모리 분산 추론 엔진보다 약 10배 정도 빠른 추론 성능을 보였다.

분산 메모리 환경에서의 ABox 실체화 추론

이완곤, 박영택

http://doi.org/

최근 지식 정보의 양이 방대해지면서, 대용량 온톨로지를 효과적으로 추론하는 연구가 활발히 진행되고 있다. 이러한 추론 방법들은 TBox 분류와 ABox 실체화로 나누어진다. TBox 추론은 스키마의 무결성과 종속성을 주로 다룬다면, ABox 추론은 인스턴스 위주의 다양한 문제를 다루어서 실제 응용에서의 중요성이 매우 크다. 따라서 본 논문은 클래스의 제약 조건을 분석하고, 이를 통해 인스턴스가 속하는 클래스를 추론할 수 있는 방법을 제안한다. 객체 지향 언어 기반의 분산 파일 시스템을 활용했던 기존 방법과 달리 함수형 프로그래밍 기반의 인 메모리 시스템인 스파크를 통해 대용량 온톨로지 실체화 방법에 대해서 설명한다. 제안하는 기법의 효율성을 검증하기 위해 W3C의 Wine 온톨로지를 이용해 인스턴스를 생성(1억 2천만~6억개의 트리플)하고 실험을 수행하였다. 6억개의 트리플을 대상으로 진행한 실험의 경우 전체 추론 시간이 51분(696 K Triple/sec)이 소요되었다.

MOnCa2: 지능형 스마트폰 어플리케이션을 위한 사용자 이동 행위 인지와 경로 예측기반의 고수준 콘텍스트 추론 프레임워크

김제민, 박영택

http://doi.org/

MOnCa2는 스마트폰에 장착된 센서와 온톨로지 추론 기반의 지능형 스마트폰 어플리케이션 구축을 위한 프레임워크다. 기존에 연구되었던 MOnCa는 온톨로지 인스턴스로 등록된 센서 값에 대한 정보를 바탕으로 사용자의 현재 상황을 판단 및 추론하였다. 이러한 방식은 사용자의 공간 정보나 주변에 존재하는 객체가 무엇인지 판단하는 것은 가능하나 사용자의 물리적인 콘텍스트(이동 행위, 이동할 목적지 등등) 판단하는 것은 불가능했다. 본 논문에서 설명하는 MOnCa2는 사용자 개개인의 물리적인 콘텍스트를 판단 및 추론하기 위해 스마트폰의 장착된 센서를 바탕으로 행위 및 이동 상황에 대응하는 인지 모델을 구축하고, 구축된 모델을 기반으로 사용자의 실시간 행위 및 이동 상황에 대해 1차적인 추론을 수행하며, 추론된 1차적인 콘텍스트에 대해 온톨로지 기반의 2차 추론을 통해 지능형 어플리케이션에 필요한 고수준 사용자 콘텍스트를 생산한다. 따라서 본 논문은 스마트폰의 가속도 센서를 기반으로 사용자의 이동에 필요한 행위를 인지하는 기법, 스마트폰의 GPS 신호를 바탕으로 이동 목적지와 경로를 예측하는 기법, 온톨로지 실체화를 적용하여 고수준 콘텍스트를 추론하는 과정에 초점을 맞추어 설명을 한다.

분산 클러스터 메모리 기반 대용량 OWL Horst Lite 온톨로지 추론 기법

김제민, 박영택

http://doi.org/

현재 대용량 온톨로지를 추론하기 위해 하둡 기반의 분산 클러스터 환경을 구축한 후, 맵-리듀스 알고리즘을 기반으로 추론을 수행하는 방식이 활발히 연구되고 있다. 그러나 본 논문에서는 분산 클러스터의 메모리 환경에서 대용량 OWL Horst Lite 온톨로지 추론을 위한 기법을 제안한다. 대용량 온톨로지 추론에 사용되는 규칙 기반 추론 방식은 데이터가 더 이상 추론 되지 않을 때까지 트리플 형식으로 표현된 온톨로지에 추론 규칙을 반복적으로 수행한다. 따라서 컴퓨터 디스크에 적재된 대용량의 온톨로지를 대상으로 추론을 수행하면 추론 시스템의 성능이 상당히 저하된다. 이러한 단점을 극복하기 위해서 본 논문에서는 메모리 기반의 분산 클러스터 프레임워크인 Spark를 기반으로 온톨로지를 메모리에 적재한 후, 추론을 수행하는 기법을 제안한다. Spark에 적합한 OWL Horst Lite 온톨로지 추론 시스템을 구현하기 위해서 대용량 온톨로지를 적절한 크기의 블록으로 분할한 후, 각각의 블록을 분산 클러스터를 구성하는 각 노드의 메모리에 분산 적재하여 작업을 수행하는 방법론을 제안하였다. 제안하는 기법의 효율성을 검증하기 위해, 온톨로지 추론과 검색 속도를 평가하는 공식 데이터인 LUBM을 대상으로 실험하였다. 대표적인 맵-리듀스 기반 온톨로지 추론 엔진인 WebPIE와 비교 실험한 결과, LUBM8000(11억개 트리플, 155GB)에 대해서 WebPIE의 추론 처리량이 19k/초보다 3.2배 개선된 62k/초의 성능 향상이 있었다.

스마트폰상의 지능형 개인화 서비스를 위한 강인한 파티클 필터 기반의 사용자 경로 예측

백혜정, 박영택

http://doi.org/

스마트폰내 GPS 및 다양한 센서 데이터를 이용하여 스마트폰 사용자의 이동 패턴을 학습하고, 이를 기반으로 사용자 목적지와 경로를 예측하여 사용자의 의도에 맞는 서비스를 제공하는 위치기반 지능형 개인화 서비스(Intelligent personal assistant) 연구가 활발히 진행 되고 있다. 위치기반 개인화 서비스의 지능성은 불완전한 센서 데이터로부터 사용자 이동 정보를 처리하여, 실시간으로 사용자의 경로를 예측하는 정확성과 효율성에 좌우된다. 본 논문은 불완전한 정보로부터 사용자의 경로와 목적지를 추론하는 동적 베이지안 네트워크 기반의 강인한 파티클 필터(Robust particle filter)를 제안한다. 제안한 강인한 파티클 필터 방법은 부정확하고, 불완전한 센서 정보를 보완할 수 있는 파티클 생성, 실시간에 계산 복잡도를 감소시키는 효율적인 스위칭 함수와 가중치 함수, 파티클의 정확도를 향상시키는 재표본화로 구성되며, 사용자의 목적지와 경로의 예측 정확성과 효율성의 성능을 향상시켰다.

사물인터넷 환경에서 대용량 스트리밍 센서데이터의 실시간 · 병렬 시맨틱 변환 기법

권순현, 박동환, 방효찬, 박영택

http://doi.org/

최근 사물인터넷 환경에서는 발생하는 센서데이터의 가치와 데이터의 상호운용성을 증진시키기 위해 시맨틱웹 기술과의 접목에 대한 연구가 활발히 진행되고 있다. 이를 위해서는 센서데이터와 서비스 도메인 지식의 융합을 위한 센서데이터의 시맨틱화는 필수적이다. 하지만 기존의 시맨틱 변환기술은 정적인 메타데이터를 시맨틱 데이터(RDF)로 변환하는 기술이며, 이는 사물인터넷 환경의 실시간성, 대용량성의 특징을 제대로 처리할 수 없는 실정이다. 따라서 본 논문에서는 사물인터넷 환경에서 발생하는 대용량 스트리밍 센서데이터의 실시간?병렬처리를 통해 시맨틱 데이터로 변환하는 기법을 제시한다. 본 기법에서는 시맨틱 변환을 위한 변환규칙을 정의하고, 정의된 변환규칙과 온톨로지 기반 센서 모델을 통해 실시간?병렬로 센서데이터를 시맨틱 변환하여 시맨틱 레파지토리에 저장한다. 성능향상을 위해 빅데이터 실시간 분석 프레임워크인 아파치 스톰을 이용하여, 각 변환작업을 병렬로 처리한다. 이를 위한 시스템을 구현하고, 대용량 스트리밍 센서데이터인 기상청 AWS 관측데이터를 이용하여 제시된 기법에 대한 성능평가를 진행하여, 본 논문에서 제시된 기법을 입증한다.

클라우드 컴퓨팅 환경에서의 대용량 RDFS 추론을 위한 분산 테이블 조인 기법

이완곤, 김제민, 박영택

http://doi.org/

지식 서비스 시스템이 효과적인 서비스를 제공하기 위해서는, 명시된 지식을 바탕으로 새로운 지식을 추론 할 수 있어야 한다. 대부분 지식 서비스 시스템은 온톨로지로 지식을 표현한다. 실 세계의 지식 정보의 양은 점점 방대해지고 있으며, 따라서 대용량 온톨로지를 효과적으로 추론하는 기법이 요구되고 있다. 본 논문은 클라우드 컴퓨팅 환경을 기반으로 대용량 온톨로지를 RDFS수준으로 추론하기 위한 분산테이블 조인 방법을 제안하고, 성능을 평가한다. 본 논문에서 제안하는 RDFS 추론은 분산 파일 시스템 환경에서 RDFS 메타 테이블을 기반으로 맵-리듀스를 적용한 방식과, 맵-리듀스를 사용하지 않고 클라우드 컴퓨터의 메모리만 사용한 방식에 초점을 맞추었다. 따라서 본 논문에서는 제안하는 각 기법에 대한 추론 시스템 구조와 RDFS 추론 규칙에 따른 메타 테이블 설계 및 추론 전략 알고리즘에 대해서 중점적으로 설명한다. 제안하는 기법의 효율성을 검증하기 위해 온톨로지 추론과 검색 속도를 평가하는 공식 데이터인 LUBM1000부터 LUBM6000을 대상으로 실험을 수행 하였다. 가장 큰 LUBM6000(8억 6천만 트리플)의 경우, 메타 테이블 기반의 RDFS 추론 기법은 전체 추론 시간이 13.75분(초당 1,042 트리플 추론)소요된 반면, 클라우드 컴퓨터의 메모리를 적용한 방식은 7.24분(초당 1,979 트리플 추론)이 소모되어 약 2배정도 빠른 추론 속도를 보였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr