디지털 라이브러리[ 검색결과 ]
대용량 스트리밍 센서데이터 환경에서 RDFS 규칙기반 병렬추론 기법
최근 스마트폰의 폭발적인 보급, IoT와 클라우드 컴퓨팅 기술의 고도화, 그리고 IoT 디바이스의 보편화로 대용량 스트리밍 센싱데이터가 출현하였다. 또한 이를 기반으로 데이터의 공유와 매쉬업 통해 새로운 데이터의 가치를 창출하기 위한 요구사항의 증대로 대용량 스트리밍 센싱데이터 환경에서 시맨틱 웹 기술과의 접목에 관한 연구가 활발히 진행되고 있다. 하지만 데이터의 대용량성?스트리밍성으로 인해 새로운 지식을 도출하기 위한 지식 추론분야에서 많은 이슈들에 직면하고 있다. 이러한 배경하에, 본 논문에서는 IoT 환경에서 발생하는 대용량 스트리밍 센싱데이터를 시맨틱웹 기술로 처리하여 서비스하기 위해 RDFS 규칙기반 병렬추론 기법을 제시한다. 제안된 기법에서는 기존의 규칙추론 알고리즘인 Rete 알고리즘을 하둡프레임워크 맵리듀스를 통해 병렬로 수행하고, 공용 스토리지로서 하둡 데이터베이스인 HBase를 사용하여 데이터를 공유한다. 이를 위한 시스템을 구현하고, 대용량 스트리밍 센싱데이터인 기상청 AWS 관측데이터를 이용하여 제시된 기법에 대한 성능평가를 진행하고, 이를 입증한다.
뉴로 심볼릭 기반 규칙 유도 및 추론 엔진을 활용한 지식 완성 시스템
http://doi.org/10.5626/JOK.2021.48.11.1202
최근 지식 그래프의 불완전성 문제를 해결하기 위한 다양한 지식 완성 연구중 딥러닝 학습 방법과 로직 시스템의 장점을 결합한 NTP(Neural Theorem Prover)와 같은 연구가 기존 연구들에 비해 좋은 성능을 내고 있다. 하지만 NTP는 하나의 입력에 대한 예측 결과를 얻기 위해 지식 그래프의 모든 트리플이 연산에 관여하게 되므로 대용량 지식 그래프 처리에 한계가 있다. 본 논문에서는 NTP의 계산 복잡도 문제를 개선한 모델로부터 심볼의 벡터 표현을 학습하여 규칙을 유도하고, 추론 엔진을 사용하여 유도된 규칙으로부터 지식 추론을 수행할 수 있는 딥러닝 학습 방식과 로직 추론 방식의 통합시스템을 제안한다. 본 논문에서 사용한 규칙 생성모델의 규칙유도 성능 검증을 위해 NTP와 Nations, Kinship, UMLS 데이터 셋을 대상으로 유도된 규칙을 활용한 테스트 데이터 추론가능 여부를 비교하였으며, 대규모 지식그래프인 Kdata와 WiseKB를 사용한 실험에서는 추론 엔진을 통한 지식 추론 결과 실험에 사용된 지식 그래프에 비해 각각 Kdata는 30%, WiseKB는 95%증가된 지식 그래프를 얻을 수 있었다.
Explanation segments 기반 설명 가능한 지식 완성 모델
http://doi.org/10.5626/JOK.2021.48.6.680
최근 딥러닝을 활용하여 불완전한 지식 그래프를 대상으로 새로운 링크를 예측하는 연구가 많이 진행되고 있지만, 딥러닝을 활용한 링크 예측은 추론 결과에 대한 설명이 불가능하다는 한계점이 있다. 따라서 본 논문에서는 링크 예측 후, 추론 결과를 뒷받침하는 증거로서 설명 가능한 추론 경로를 제공하여 지식 완성의 효용성이 높은 모델을 제안한다. 이를 위해 우선 지식 그래프의 주어를 시작으로 목적어로 도달하는 또 다른 경로를 Path Ranking Algorithm 활용하여 생성하며, 이를 explanation segment라 정의하였다. 이 후 생성된 explanation segment를 CNN과 양방향 LSTM을 결합한 방식을 적용하여 임베딩 한다. 마지막으로 임베딩 된 explanation segment들과 추론할 후보 술어와의 의미적 유사성 계산을 기반으로 한 어텐션 메커니즘을 적용하여, 링크 예측 모델을 학습하였다. 모델 학습 후 링크 예측 설명에 적합한 explanation segment를 어텐션 점수에 기반으로 선정하여 제공한다. 제안하는 방법의 성능을 측정하기 위해 링크 예측 비교 실험 및 링크 예측 결과에 대한 설명으로 적합한 explanation segment의 비율을 측정하는 정확성 검증 실험을 진행하였다. 실험 데이터는 벤치마크 데이터인 NELL-995, FB15K-237, Countries를 대상으로 진행하였으며, 정확성 검증 실험에서 평균 89%. 44%, 97% 정확성을 보였고, 기존 연구와 비교했을 때, NELL-995는 평균 35%p, FB15K-237은 평균 21%p 높은 성능을 보였다.
질의문과 지식 그래프 관계 학습을 통한 지식 완성 시스템
http://doi.org/10.5626/JOK.2021.48.6.649
지식 그래프는 개체들 사이의 관계로 구성된 네트워크를 뜻한다. 이러한 지식 그래프에서 특정 개체들에 대한 관계가 누락되거나 잘못된 관계 연결과 같은 문제로 불완전한 지식 그래프의 문제점이 존재한다. 불완전한 지식 그래프의 문제를 해결하기 위한 많은 연구는 자연어 임베딩 기반으로 인공 신경망을 이용한 학습 방법들을 제안했다. 이러한 방법들로 다양한 지식 그래프 완성 시스템들이 연구되고 있는데 본 논문에서는 특정 질의와 지식 그래프를 활용해 누락된 지식을 추론하는 시스템을 제안하였다. 먼저 의문형의 Query로부터 topic을 자동으로 추출하여 해당 topic 임베딩을 지식 그래프 임베딩 모듈로부터 얻는다. 그 다음 Query 임베딩과 지식 그래프 임베딩을 활용하여 지식 그래프로부터의 topic과 질의문 사이의 관계를 학습하여 새로운 트리플을 추론한다. 이와 같은 방식을 통해 누락된 지식들을 추론하고 좋은 성능을 위해 특정 질의와 관련된 지식 그래프의 술어부 임베딩을 같이 활용하였고 기존 방법보다 더 좋은 성능을 보임을 증명하기 위해 MetaQA 데이터셋을 사용하여 실험을 진행하였다. 지식 그래프는 영화를 도메인으로 갖는 지식 그래프를 사용하였다. 실험 결과로 지식 그래프 전체와 누락된 지식 그래프를 가정하여 트리플들을 임의로 50% 누락시킨 지식 그래프에서 실험하여 기존 방법보다 더 좋은 성능을 얻었다.
뉴로 심볼릭 기반 규칙 생성을 통한 지식 완성 기법
http://doi.org/10.5626/JOK.2021.48.4.425
지식 그래프는 실세계의 지식을 다양한 소스로부터 수집하여 구조화된 방식으로 표현한 것이다. 지식 그래프는 데이터들 간의 관계를 표현한 네트워크로서 인공지능 기술에 접목되어 다양하게 활용되고 있지만, 엔티티 또는 엔티티 사이의 링크가 누락되어 지식의 불완전성에 대한 문제가 존재한다. 이러한 문제 해결을 위해 자동 지식 완성 기법 연구가 중요하게 요구되며, 임베딩 기법을 사용하거나 딥러닝을 활용한 연구와 온톨로지를 이용한 심볼릭 규칙 추론을 통한 지식 완성 수행과 같은 다양한 연구들이 진행되었다. 이러한 방식을 통해 효율적으로 자동 지식 완성을 수행하지만 딥러닝 방식은 데이터 기반의 처리방식으로 인해 대량의 학습 데이터가 요구되며, 결과에 대한 설명이 불가능한 문제점이 있다. 그리고 온톨로지 기반의 방식은 전문가에 의해 정의된 온톨로지 및 규칙이 필요하다는 문제가 존재한다. 따라서 본 논문에서는 뉴로 심볼릭 방식을 이용하여 데이터에 내포된 규칙을 명시적으로 추출하여 자동 지식 완성방법을 제안한다. 규칙 추출을 위해 심볼릭 방식의 단일화(unification) 기반의 릴레이션 임베딩 경로를 구현하고, 이에 대한 손실 함수를 정의하여 자동으로 규칙을 생성한다. 기존의 임베딩 기법에 비하여 뉴로 심볼릭 방식은 속도와 성능이 더 우월함을 보여준다. 제안하는 방법의 성능을 측정하기 위해 Nations, UMLS, Kinship 데이터 셋을 대상으로 최신 지식 완성 연구와 비교 실험을 진행하였으며, 학습 시간이 크게 감소했고, 평균적으로 성능이 37.5%p 증가한 것을 확인하였다.
Spark 데이터프레임을 이용한 대용량 지식 그래프 추론 통합 시스템
http://doi.org/10.5626/JOK.2020.47.12.1162
최근 웹으로부터 얻은 빅 데이터들을 활용하여 대용량 온톨로지의 추론 방법에 대한 연구가 활발히 이루어지고 있다. 하지만 데이터의 양이 증가함에 따라 추론 성능 및 처리 속도가 저하되는 문제점이 있다. 본 논문에서는 효과적인 추론 수행을 위해 클라우드 컴퓨팅 환경에서 스파크 데이터프레임을 활용하여 추론을 수행할 수 있는 2단계의 통합 시스템을 제안한다. 첫 번째 단계는 선행 연구인 추론 엔진을 통해 OWL Horst 수준의 공리 규칙 추론을 수행한다. 두 번째 단계는 선행 연구와 마찬가지로 스파크 데이터프레임을 활용한 SWRL 추론 엔진을 통해 사용자 정의 규칙에 대한 추론을 수행한다.
지식 그래프 임베딩 및 적응형 클러스터링을 활용한 오류 트리플 검출
http://doi.org/10.5626/JOK.2020.47.10.958
최근 인터넷의 발전으로 정보의 양이 늘어나면서 대용량 지식 그래프를 이용한 연구가 활발히 이루어지고 있다. 또한 지식 그래프가 다양한 연구와 서비스에 활용됨에 따라 양질의 지식 그래프를 확보해야 하는 필요성이 대두되고 있다. 하지만 양질의 지식 그래프를 얻기 위해 지식 그래프 내 오류를 검출하는 연구가 부족하다. 오류 트리플 검출을 위해 임베딩과 클러스터링을 사용한 이전 연구가 좋은 성능을 나타냈다. 하지만 클러스터 최적화 과정에서 일괄적으로 동일한 임계값을 사용하여 각 클러스터의 특성을 고려하지 못하는 문제가 존재하였다. 본 논문에서는 이러한 문제를 해결하고자 지식 그래프 내 오류 트리플 검출을 위해 지식 그래프에 대한 임베딩과 함께 각 클러스터에 대한 최적의 Threshold를 찾아 적용함으로써 클러스터링을 진행하는 적응형 클러스터링 모델을 제안한다. 본 논문에서 제안하는 방법의 성능을 평가하기 위해 DBpeida, Freebase와 WiseKB 세 가지 데이터셋을 대상으로 기존 오류 트리플 검출 연구와 비교 실험을 진행하였으며 F1-Score를 기준으로 평균 5.3% 높은 성능을 확인하였다.
경로 임베딩 기반 지식 그래프 완성 방식
http://doi.org/10.5626/JOK.2020.47.8.722
지식 그래프는 질의응답 또는 추천시스템과 같은 지능형 시스템을 구성하는데 많이 사용된다. 그러나 지식 그래프에는 대부분의 엔티티들 사이에 관계 링크가 누락되어 있는 문제가 존재한다. 이런 문제를 해결하기 위해 본 논문에서 BLSTM(Bidirectional LSTM) 및 CNN(Convolutional Neural Network)을 결합한 새로운 지식 그래프 완성 방법을 제안한다. 우선, 후보 관계와 두개의 대상 엔티티가 주어지면 BLSTM 및 Convolution 연산을 사용하여 엔티티들을 연결하는 경로들을 저차원 공간으로 임베딩한다. 그리고 어텐션(attention) 모델을 통해 두 개의 엔티티를 표현하는 여러 경로들을 하나의 벡터로 만든다. 벡터와 추론할 후보 관계 사이의 연관성을 통해 후보 관계가 엔티티들과 연결될 수 있는지에 대한 가능성을 예측한다. 제안하는 방법은 CNN을 이용해서 주어진 엔티티들의 관계를 추론하기에 가장 중요한 지역특징(local feature)을 엔티티 사이에 있는 경로에서 추출하고 BLSTM을 이용해서 추출한 지역특징의 순서 관계에 대해 학습한다. 이를 통해 저차원 경로 특징을 효과적으로 학습 하는 것이 가능했으며, 학습된 특징들을 이용해 엔티티 사이의 관계를 예측하였다. 여러 지식 그래프를 대상으로 링크 예측(link prediction) 실험을 진행했으며, 제안하는 방법이 최신 연구 결과보다 높은 성능을 보였다.
클라우드 컴퓨팅 환경에서 분산 테이블 구조를 활용한 OWL-Horst 온톨로지 추론 엔진
http://doi.org/10.5626/JOK.2020.47.7.674
최근에 웹으로부터 얻은 데이터들을 통해 온톨로지를 확장하는 많은 기계 학습법들이 연구되고 있다. 그리고 웹으로부터 얻는 데이터들은 계속 증가하기 때문에 대용량 온톨로지 추론 방법에 대한 관심도 증가하고 있다. 하지만 점점 증가하는 데이터의 양은 처리 속도가 저하되는 문제점이 있다. 본 논문에서는 대용량 데이터 처리속도 저하 문제점을 해결하기 위해 분산 테이블 구조 데이터프레임을 사용하여 대용량 OWL-Horst 추론 성능 개선 방법에 대해 설명하고, OWL-Horst 추론순서 구조를 정확도와 속도를 고려하여 효과적으로 설계한 방법에 대해 설명한다. 또 추론 성능을 높이기 위한 분산 병렬 추론 알고리즘 및 최적화 방법에 관해 설명한다. 본 논문에서 제안하는 분산 테이블 구조 데이터프레임을 사용한 추론 시스템의 성능을 평가하기 위해 LUBM1000, LUBM2000, LUBM3000, LUBM4000 대상으로 실험을 진행했고, 기존 RDD(Resilient Distrbuted DataSet), SQL(Structured Query Language) 기반 추론엔진을 비교하여 가장 우수한 성능을 얻었다.
다중 클래스 멤버쉽 처리를 위한 Bi-LSTM 기반 지식 그래프 완성 기법
http://doi.org/10.5626/JOK.2020.47.6.559
실세계의 지식을 구조화된 방식으로 표현한 지식 그래프는 웹 검색, 추천 시스템과 같이 다양한 분야에서 활용되고 있지만, 엔티티 또는 엔티티 사이의 링크가 누락되는 문제가 존재한다. 이러한 문제해결을 위해 임베딩 기법을 사용하거나 딥러닝을 활용한 다양한 연구들이 진행되었으며, 특히 CNN과 Bidirectional-LSTM을 결합한 최신 연구가 기존 연구들과 비교하여 높은 성능을 나타냈다. 그러나 하나의 엔티티에 대하여 여러 개의 클래스 타입이 정의된 경우 학습 데이터의 양이 기하급수적으로 증대되어 학습시간이 증가하는 문제와 엔티티의 클래스 타입 정보가 정의되지 않으면 학습 데이터 생성이 불가능하다는 한계점이 존재한다. 따라서 본 논문에서는 엔티티의 클래스 타입 수에 상관없이 학습 데이터 생성과 모델에서 학습 및 추론이 가능하도록 미리 학습된 지식 그래프 임베딩 벡터를 사용하는 방법과 vector addition 개념을 활용한 다중 클래스 멤버쉽 처리 방법을 제안한다. 본 논문에서 제안하는 방법의 성능을 평가하기 위해 데이터셋 NELL-995 와 FB15K-237을 대상으로 기존 지식 완성 연구들과 비교 실험을 진행하였으며 MAP이 1.6%p, MRR이 1.5%p 더 높은 성능을 보였다.