디지털 라이브러리[ 검색결과 ]
사건의 시간적 변이에 대한 온톨로지 기반 표현 방법
http://doi.org/10.5626/JOK.2023.50.6.484
시간의 흐름에 따라서 발생하는 사건과 이와 관련된 개체 간의 변화되는 정보를 정형화된 형식으로 표현하는 것은 여러 면에서 유용하다. 이에 온톨로지를 이용하여 사건의 시간 정보를 표현하는 다양한 연구가 있었다. 리니지(Lineage) 개념은 시간의 흐름에 따른 사건의 상태 변이와 연결성을 효과적으로 표현 가능하게 한다. 이에 따라 본 논문에서는 수많은 사건과 이와 관련된 개체의 시간별 변이 과정을 정형화된 형식으로 표현하기 위해서 온톨로지 기반의 사건 리니지와 개체 리니지를 활용하는 방법을 제안한다. 제안하는 방법은 시간 형식을 instant, interval, duration, periodic으로 분류하여 온톨로지 인스턴스로 표현하고 각 사건은 하나의 시간 형식을 가지도록 하고 이를 바탕으로 온톨로지 인스턴스로 표현된 사건과 이와 관련된 개체 정보를 리니지로 표현하였다. 본 연구의 적절성과 유용성을 검증하기 위해 Allen의 Temporal Relation을 이용한 시간 관계 질의를 처리하는 실험을 수행한 결과 응답 시간이 15.02% 향상되었다.
분산 처리 환경에서 SWRL 규칙을 이용한 대용량 점증적 추론 방법
빅데이터 시대가 도래 하면서 시맨틱 데이터의 양이 빠른 속도로 증가하고 있다. 이러한 대용량 시맨틱 데이터에서 의미 있는 암묵적 정보를 추론하기 위해서 지식 사용자의 경험적 지식을 기반으로 작성된 SWRL(Semantic Web Rule Language) 규칙들을 활용하는 많은 연구가 진행되고 있다. 그러나 기존의 단일 노드의 추론 시스템들은 대용량 데이터 처리에 한계가 있고, 다중 노드 기반의 분산 추론 시스템들은 네트워크 셔플링으로 인해 성능이 저하되는 문제점들이 존재한다. 따라서 본 논문에서는 기존 시스템들의 한계를 극복하고 보다 효율적인 분산 추론 방법을 제안한다. 또한 네트워크 셔플링을 최소화 할 수 있는 데이터 파티셔닝 전략을 소개하고, 점증적 추론에서 사용되는 추가된 새로운 데이터의 선별과 추론 규칙의 순서결정으로 추론 과정을 최적화 할 수 있는 방법에 대해 설명한다. 제안하는 방법의 성능을 측적하기 위해 약2억 트리플로 구성된 WiseKB 온톨로지와 84개의 사용자 정의 규칙을 이용한 실험에서 32.7분이 소요되었다. 또한 LUBM 벤치 마크 데이터를 이용한 실험에서 맵-리듀스 방식에 비해 최대 2배 높은 성능을 보였다.
미디어 분류를 위한 온톨로지 스키마 자동 생성
UCC와 SNS 등을 통해 개인 미디어가 다양한 방식으로 생성됨에 따라 미디어를 분석하고 인지하는 기술에 대한 연구가 진행되고 있으며, 이를 통해 객체 인지의 수준이 향상되었다. 그 결과 기존의 제목, 태그 및 스크립터 정보를 이용한 추론 방식과 달리 미디어에서 인지되는 객체를 활용하는 영상 분류 추론 연구가 수행되고 있다. 하지만 추론을 위한 미디어 온톨로지 모델링을 사람이 직접 수행해야 하기 때문에 많은 시간과 비용이 발생하는 단점이 있다. 따라서 본 논문에서는 미디어 분류를 위한 온톨로지 스키마 모델링의 자동화 방법을 제안한다. 영상에서 인지되는 객체의 빈도에 따른 OWL-DL 공리의 특성을 고려하여 온톨로지 모델 생성의 자동화 방안에 대하여 설명한다. 유튜브에서 수집한 15가지의 카테고리에 대한 영상으로부터 온톨로지 모델을 자동 생성하여 추론을 통해 미디어 분류의 정확도에 대한 실험을 수행하였다. 실험결과 15가지 영상 이벤트의 행위 약 1500개에 대하여 영상 분류를 수행한 결과, 86%의 정확도를 얻었고, 온톨로지 모델링의 자동화 방법에 대한 타당한 성능을 보였다.
지능형 서비스 로봇을 위한 온톨로지 기반의 동적 상황 관리 및 시-공간 추론
일상생활 환경 속에서 자율적으로 동작하는 서비스 로봇에게 가장 필수적인 능력 중 하나가 동적으로 변화하는 주변 환경에 대한 올바른 상황 인식과 이해 능력이다. 다양한 센서 데이터 스트림들로부터 신속히 의사 결정에 필요한 고수준의 상황 지식을 생성해내기 위해서는, 멀티 모달 센서 데이터의 융합, 불확실성 처리, 기호 지식의 실체화, 시간 의존성과 가변성 처리, 실시간성을 만족할 수 있는 시-공간 추론 등 많은 문제들이 해결되어야 한다. 이와 같은 문제들을 고려하여, 본 논문에서는 지능형 서비스 로봇을 위한 효과적인 동적 상황 관리 및 시-공간 추론 방법을 제시한다. 본 논문에서는 상황 지식 관리와 추론의 효율성을 극대화하기 위해, 저수준의 상황 지식은 센서 및 인식 데이터가 입력될 때마다 실시간적으로 생성되지만, 반면에 고수준의 상황 지식은 의사 결정 모듈에서 요구가 있을 때만 후향 시-공간 추론을 통해 유도되도록 알고리즘을 설계하였다. Kinect 시각 센서 기반의 Turtlebot를 이용한 실험을 통해, 제안한 방법에 기초한 동적 상황 관리 및 추론 시스템의 높은 효율성을 확인할 수 있었다.
Distributed Assumption-Based Truth Maintenance System for Scalable Reasoning
Batselem Jagvaral, Young-Tack Park
가정기반진리관리 시스템(ATMS)은 추론 시스템의 추론 과정을 저장하고 비단조추론을 지원할 수 있는 도구이다 또한 의존기반 backtracking을 지원하므로 매우 넓은 공간 탐색 문제를 해결 할 수 있는 강력한 도구이다. 모든 추론 과정을 기록하고, 특정한 컨텍스트에서 지능형시스템의 Belief를 매우 빠르게 확인하고 비단조 추론 문제에 대한 해결책을 효율적으로 제공할 수 있게 한다. 그러나 최근 데이터의 양이 방대해지면서 기존의 단일 머신을 사용하는 경우 문제 해결 프로그램의 대용량의 추론과정을 저장하는 것이 불가능하게 되었다. 대용량 데이터에 대한 문제 해결 과정을 기록하는 것은 많은 연산과 메모리 오버헤드를 야기한다. 이러한 단점을 극복하기 위해 본 논문에서는 Apache Spark 환경에서 functional 및 객체지향 방식 기반의 점진적 컨텍스트 추론을 유지할 수 있는 방법을 제안한다.. 이는 가정(Assumption)과 유도과정을 분산 환경에 저장하며, 실체화된 대용량 데이터셋의 변화를 효율적으로 수정가능하게 한다. 또한 ATMS의 Label, Environment를 분산 처리하여 대규모의 추론 과정을 효과적으로 관리할 수 있는 방안을 제시하고 있다. 제안하는 시스템의 성능을 측정하기 위해 5개의 노드로 구성된 클러스터에서 LUBM 데이터셋에 대한 OWL/RDFS 추론을 수행하고, 데이터의 추가, 설명, 제거에 대한 실험을 수행하였다. LUBM2000에 대하여 추론을 수행한 결과 80GB데이터가 추론되었고, ATMS에 적용하여 추가, 설명, 제거에 대하여 수초 내에 처리하는 성능을 보였다.
신뢰 값 기반의 대용량 OWL Horst 온톨로지 추론
웹으로부터 얻어진 데이터를 통해 자동적으로 온톨로지를 확장하는 많은 기계학습 방법들이 존재한다. 또한 대용량 온톨로지 추론에 대한 관심이 증가하고 있다. 하지만 웹으로부터 얻어진 다양한 데이터의 신뢰성 문제를 고려하지 않으면, 불확실성을 내포하는 추론결과를 초래하는 문제점이 있다. 현재 대용량 온톨로지의 신뢰도를 반영하는 추론에 대한 연구가 부족하기 때문에 신뢰 값 기반의 대용량 온톨로지 추론 방법론이 요구되고 있다. 본 논문에서는 인메모리 기반의 분산 클러스터 프레임워크인 스파크 환경에서 신뢰 값 기반의 대용량 OWL Horst 추론 방법에 대해서 설명한다. 기존의 연구들의 문제점인 중복 추론된 데이터의 신뢰 값을 통합하는 방법을 제안한다. 또한 추론의 성능을 저하시키는 문제를 해결할 수 있는 분산 병렬 추론 알고리즘을 설명한다. 본 논문에서 제안하는 신뢰 값 기반의 추론 방법의 성능을 평가하기 위해 LUBM3000을 대상으로 실험을 진행했고, 기존의 추론엔진인 WebPIE에 비해 약 2배 이상의 성능을 얻었다.
온톨로지 및 순서 규칙 기반 대용량 스트리밍 미디어 이벤트 인지
UCC(User Created Contents) 형태의 다양한 영상 미디어 데이터가 증가함에 따라 의미 있는 서비스를 제공하기 위해 많은 분야에서 활발한 연구가 진행 중이다. 그 중 시맨틱 웹 기반의 미디어 분류에 대한 연구가 진행되고 있지만 기존의 미디어 온톨로지는 메타 정보를 이용하기 때문에 정보의 부재에 따른 한계점이 있다. 따라서 본 논문에서는 영상에서 인지되는 객체를 정하고 그 조합으로 구성된 서술논리 기반의 온톨로지를 구축하고 영상의 장면에 따른 순서 기반의 규칙을 정의하여 이벤트 인지에 대한 기틀을 제안한다. 또한 증가하는 미디어 데이터에 대한 처리를 위해 분산 인-메모리 기반 프레임워크인 아파치 스파크 스트리밍을 이용하여, 영상 분류를 병렬로 처리하는 방법에 대해 설명한다. 유튜브에서 추출한 영상을 대상으로 대용량 미디어 온톨로지 데이터를 생성하고, 이를 이용하여 제시된 기법에 대한 성능 평가를 진행하여 타당성을 입증한다.
미디어 영상 자동 분류를 위한 온톨로지 모델링 및 규칙 기반 추론
최근 스마트 디바이스가 많이 보급되면서 개인 영상 미디어가 다양한 방식으로 생성되어 영상미디어를 이용한 서비스가 요구되고 있다. 이에 따라 영상 미디어 분석 및 인지 기술에 대한 연구가 활발히 진행되어, 영상으로부터 의미 있는 객체를 인지할 수 있게 되었다. 기존의 미디어 온톨로지를 이용한 시스템은 영상의 제목, 태그 및 스크립터 정보를 이용하기 때문에 영상에 등장하는 객체를 통해 미디어 분류를 수행할 수 없는 단점이 있다. 따라서 본 논문에서는 영상 미디어 데이터에서 인지되는 객체들을 이용해 해당 영상이 속하는 범주로 자동 분류하기 위해 서술논리 기반(Description Logic) 추론 시스템과 순서에 따라 달라질 수 있는 이벤트 처리를 위한 규칙 기반 추론 시스템을 제안한다. 제안하는 서술논리 기반 추론 시스템은 영상 미디어에서 인지되는 객체들의 관계를 서술논리로 정의된 행위(Activity) 온톨로지로 표현하고, 실체화 추론을 통해 인지된 객체가 행위로 추론되는 방법에 대해 설명한다. 규칙 기반 추론 시스템은 추론된 행위의 순서에 따른 이벤트를 정의하고 순서 기반 규칙 추론을 이용하여 범주에 알맞은 이벤트로 자동 분류하는 방법에 대하여 설명한다. 제안하는 방법의 타당성을 증명하기 위해 유투브의 영상에 대한 분석을 통해 올바른 범주로 분류된 미디어 데이터를 구성하여 제안하는 시스템의 타당성을 증명하였다.
신뢰값 기반 대용량 트리플 처리를 위한 스파크 환경에서의 RDFS 온톨로지 추론
최근 인터넷과 디바이스의 발전으로 지식 정보의 양이 방대해 지면서 대용량 온톨로지를 이용한 추론 연구가 활발히 진행되고 있다. 일반적으로 트리플로 표현되는 빅데이터는 기계학습 프로그램이나 지식 공학자가 각 트리플의 신뢰도를 측정하여 제공한다. 하지만 수집된 데이터는 불확실한 데이터를 포함하고 있으며, 이러한 데이터를 추론하는 것은 불확실성을 내포한 추론 결과를 초래할 수 있다. 본 논문에서는 불확실성 문제를 해결하기 위해 수집된 데이터에 대한 신뢰의 정도를 나타내는 신뢰값(Confidence Value)를 이용한 RDFS 규칙 추론 방법에 대하여 설명하고, 메모리 기반의 분산 클러스터 프레임워크인 스파크(Spark)를 기반으로 데이터의 불확실성에 대한 고려를 하지 않는 기존의 추론 방법과 달리 신뢰값 계산에 대한 방법을 응용하여 RDFS 규칙을 통해 추론되는 새로운 데이터의 신뢰값을 계산하며, 계산된 신뢰값은 추론된 데이터에 대한 불확실성을 나타낸다. 제안하는 추론 방법의 성능을 검증하기 위해 온톨로지 추론과 검색 속도를 평가할 때 활용되는 공식 데이터인 LUBM을 대상으로 신뢰값을 추가하여 실험을 수행하였으며, 가장 큰 데이터인 LUBM3000을 수행하였을 때 1179초의 추론시간이 소요되었고, 초당 350K 트리플을 처리할 수 있는 성능을 보였다.
한국어 서술어와 지식베이스 프로퍼티 연결
본 논문은 자연언어 문장을 지식베이스의 지식 골격에 맞추어 지식의 형태로 변환하기 위한 과정 중의 하나인 관계추출(Relation Extraction)을 목표로 한다. 특히, 문장 내에 있는 서술어(Predicate)에 집중하여 서술어와 관련성 높은 지식베이스 프로퍼티(Property or Relation)를 찾아내고, 이를 통해 두 개체(Entity)간의 의미를 파악하는 관계추출에 초점을 둔다. 이에 널리 활용되는 원격지도학습(Distant Supervision) 접근 방식에 따라, 지식베이스와 자연언어 텍스트로부터 원격 학습이 가능한 레이블(Labeled)데이터를 자동으로 마련하여 지식베이스 프로퍼티에 대한 어휘화 작업을 수행한다. 즉, 두 개체 사이의 관계로 표현되는 서술어와, 온톨로지로 정의할 수 있는 프로퍼티와의 연결을 통해, 텍스트로부터 구조적 정보를 생성할 수 있는 기반을 마련하고 최종적으로 지식베이스 확장의 가능성을 열어준다.