검색 : [ author: Wan-Gon Lee ] (17)

Explanation segments 기반 설명 가능한 지식 완성 모델

이민호, 이완곤, 바트셀렘, 박영택

http://doi.org/10.5626/JOK.2021.48.6.680

최근 딥러닝을 활용하여 불완전한 지식 그래프를 대상으로 새로운 링크를 예측하는 연구가 많이 진행되고 있지만, 딥러닝을 활용한 링크 예측은 추론 결과에 대한 설명이 불가능하다는 한계점이 있다. 따라서 본 논문에서는 링크 예측 후, 추론 결과를 뒷받침하는 증거로서 설명 가능한 추론 경로를 제공하여 지식 완성의 효용성이 높은 모델을 제안한다. 이를 위해 우선 지식 그래프의 주어를 시작으로 목적어로 도달하는 또 다른 경로를 Path Ranking Algorithm 활용하여 생성하며, 이를 explanation segment라 정의하였다. 이 후 생성된 explanation segment를 CNN과 양방향 LSTM을 결합한 방식을 적용하여 임베딩 한다. 마지막으로 임베딩 된 explanation segment들과 추론할 후보 술어와의 의미적 유사성 계산을 기반으로 한 어텐션 메커니즘을 적용하여, 링크 예측 모델을 학습하였다. 모델 학습 후 링크 예측 설명에 적합한 explanation segment를 어텐션 점수에 기반으로 선정하여 제공한다. 제안하는 방법의 성능을 측정하기 위해 링크 예측 비교 실험 및 링크 예측 결과에 대한 설명으로 적합한 explanation segment의 비율을 측정하는 정확성 검증 실험을 진행하였다. 실험 데이터는 벤치마크 데이터인 NELL-995, FB15K-237, Countries를 대상으로 진행하였으며, 정확성 검증 실험에서 평균 89%. 44%, 97% 정확성을 보였고, 기존 연구와 비교했을 때, NELL-995는 평균 35%p, FB15K-237은 평균 21%p 높은 성능을 보였다.

질의문과 지식 그래프 관계 학습을 통한 지식 완성 시스템

김민성, 이민호, 이완곤, 박영택

http://doi.org/10.5626/JOK.2021.48.6.649

지식 그래프는 개체들 사이의 관계로 구성된 네트워크를 뜻한다. 이러한 지식 그래프에서 특정 개체들에 대한 관계가 누락되거나 잘못된 관계 연결과 같은 문제로 불완전한 지식 그래프의 문제점이 존재한다. 불완전한 지식 그래프의 문제를 해결하기 위한 많은 연구는 자연어 임베딩 기반으로 인공 신경망을 이용한 학습 방법들을 제안했다. 이러한 방법들로 다양한 지식 그래프 완성 시스템들이 연구되고 있는데 본 논문에서는 특정 질의와 지식 그래프를 활용해 누락된 지식을 추론하는 시스템을 제안하였다. 먼저 의문형의 Query로부터 topic을 자동으로 추출하여 해당 topic 임베딩을 지식 그래프 임베딩 모듈로부터 얻는다. 그 다음 Query 임베딩과 지식 그래프 임베딩을 활용하여 지식 그래프로부터의 topic과 질의문 사이의 관계를 학습하여 새로운 트리플을 추론한다. 이와 같은 방식을 통해 누락된 지식들을 추론하고 좋은 성능을 위해 특정 질의와 관련된 지식 그래프의 술어부 임베딩을 같이 활용하였고 기존 방법보다 더 좋은 성능을 보임을 증명하기 위해 MetaQA 데이터셋을 사용하여 실험을 진행하였다. 지식 그래프는 영화를 도메인으로 갖는 지식 그래프를 사용하였다. 실험 결과로 지식 그래프 전체와 누락된 지식 그래프를 가정하여 트리플들을 임의로 50% 누락시킨 지식 그래프에서 실험하여 기존 방법보다 더 좋은 성능을 얻었다.

Spark 데이터프레임을 이용한 대용량 지식 그래프 추론 통합 시스템

이민호, 김민성, 이완곤, 박영택

http://doi.org/10.5626/JOK.2020.47.12.1162

최근 웹으로부터 얻은 빅 데이터들을 활용하여 대용량 온톨로지의 추론 방법에 대한 연구가 활발히 이루어지고 있다. 하지만 데이터의 양이 증가함에 따라 추론 성능 및 처리 속도가 저하되는 문제점이 있다. 본 논문에서는 효과적인 추론 수행을 위해 클라우드 컴퓨팅 환경에서 스파크 데이터프레임을 활용하여 추론을 수행할 수 있는 2단계의 통합 시스템을 제안한다. 첫 번째 단계는 선행 연구인 추론 엔진을 통해 OWL Horst 수준의 공리 규칙 추론을 수행한다. 두 번째 단계는 선행 연구와 마찬가지로 스파크 데이터프레임을 활용한 SWRL 추론 엔진을 통해 사용자 정의 규칙에 대한 추론을 수행한다.

클라우드 컴퓨팅 환경에서 분산 테이블 구조를 활용한 OWL-Horst 온톨로지 추론 엔진

김민성, 이민호, 이완곤, 박영택

http://doi.org/10.5626/JOK.2020.47.7.674

최근에 웹으로부터 얻은 데이터들을 통해 온톨로지를 확장하는 많은 기계 학습법들이 연구되고 있다. 그리고 웹으로부터 얻는 데이터들은 계속 증가하기 때문에 대용량 온톨로지 추론 방법에 대한 관심도 증가하고 있다. 하지만 점점 증가하는 데이터의 양은 처리 속도가 저하되는 문제점이 있다. 본 논문에서는 대용량 데이터 처리속도 저하 문제점을 해결하기 위해 분산 테이블 구조 데이터프레임을 사용하여 대용량 OWL-Horst 추론 성능 개선 방법에 대해 설명하고, OWL-Horst 추론순서 구조를 정확도와 속도를 고려하여 효과적으로 설계한 방법에 대해 설명한다. 또 추론 성능을 높이기 위한 분산 병렬 추론 알고리즘 및 최적화 방법에 관해 설명한다. 본 논문에서 제안하는 분산 테이블 구조 데이터프레임을 사용한 추론 시스템의 성능을 평가하기 위해 LUBM1000, LUBM2000, LUBM3000, LUBM4000 대상으로 실험을 진행했고, 기존 RDD(Resilient Distrbuted DataSet), SQL(Structured Query Language) 기반 추론엔진을 비교하여 가장 우수한 성능을 얻었다.

다중 클래스 멤버쉽 처리를 위한 Bi-LSTM 기반 지식 그래프 완성 기법

노재승, 바트셀렘, 이완곤, 박영택

http://doi.org/10.5626/JOK.2020.47.6.559

실세계의 지식을 구조화된 방식으로 표현한 지식 그래프는 웹 검색, 추천 시스템과 같이 다양한 분야에서 활용되고 있지만, 엔티티 또는 엔티티 사이의 링크가 누락되는 문제가 존재한다. 이러한 문제해결을 위해 임베딩 기법을 사용하거나 딥러닝을 활용한 다양한 연구들이 진행되었으며, 특히 CNN과 Bidirectional-LSTM을 결합한 최신 연구가 기존 연구들과 비교하여 높은 성능을 나타냈다. 그러나 하나의 엔티티에 대하여 여러 개의 클래스 타입이 정의된 경우 학습 데이터의 양이 기하급수적으로 증대되어 학습시간이 증가하는 문제와 엔티티의 클래스 타입 정보가 정의되지 않으면 학습 데이터 생성이 불가능하다는 한계점이 존재한다. 따라서 본 논문에서는 엔티티의 클래스 타입 수에 상관없이 학습 데이터 생성과 모델에서 학습 및 추론이 가능하도록 미리 학습된 지식 그래프 임베딩 벡터를 사용하는 방법과 vector addition 개념을 활용한 다중 클래스 멤버쉽 처리 방법을 제안한다. 본 논문에서 제안하는 방법의 성능을 평가하기 위해 데이터셋 NELL-995 와 FB15K-237을 대상으로 기존 지식 완성 연구들과 비교 실험을 진행하였으며 MAP이 1.6%p, MRR이 1.5%p 더 높은 성능을 보였다.

지식베이스 임베딩 및 관계 모델을 활용한 오류 트리플 검출

홍지훈, 최현영, 이완곤, 박영택

http://doi.org/10.5626/JOK.2019.46.2.131

최근 인터넷의 발전으로 정보의 양이 늘어나면서 대용량 지식베이스를 이용한 연구에 관심이 많아지는 추세이다. 또한 지식베이스가 다양한 연구에 많이 활용됨에 따라 지식베이스를 완성하는 연구가 진행되고 있다. 하지만 지식베이스 내 오류 트리플을 검출하는 연구가 부족하다. 본 논문에서는 지식베이스 내의 오류 트리플을 검출하기 위해 임베딩 알고리즘을 사용하여 임베딩을 진행한 뒤 클러스터링 한 임베딩 모델과, 트리플 분류의 대표적인 알고리즘인 4가지의 릴레이션 모델을 활용하는 것을 제안한다. 또한, 싱글 임베딩 모델들의 결과를 사용한 임베딩 앙상블 모델과 싱글 릴레이션 모델들의 결과를 사용한 릴레이션 앙상블 모델을 생성하여 모델 검증 지표를 통해 오류 트리플 검출 결과를 비교 측정하였다.

부분 임베딩 기반의 지식 완성 기법

이완곤, 바트셀렘, 홍지훈, 최현영, 박영택

http://doi.org/10.5626/JOK.2018.45.11.1168

지식 그래프는 실세계의 개체들과 개체 사이의 관계로 구성된 네트워크를 의미하며, 최근에는 대용량 데이터를 기반으로 구축되고 있다. 대부분의 지식 그래프들은 누락된 엔티티 또는 관계들로 인해 불완전성에 대한 문제점이 존재한다. 이를 해결하기 위해 지난 연구들은 지식 그래프를 다차원 공간상에 임베딩하는 방법을 적용했다. 그러나 이러한 연구들은 지식 그래프가 변화하지 않는다는 가정을 하고 있다. 이로 인해 새로운 트리플이 추가되어 빠르게 진화하는 실세계의 지식 그래프에 적용하기 위해 반복적인 임베딩 모델의 재학습은 고비용의 연산이 요구되며, 실용적이지 못하다. 따라서 본 논문에서는 변화하는 지식 그래프를 대상으로 하는 부분 임베딩 기반의 지식 완성 방법을 제안한다. 지식 완성의 대상이 되는 관심 관계들을 추출하기 위해 온톨로지의 공리와 문맥 정보를 활용했으며, 이를 기반으로 엔티티와 관계들을 임베딩하고 학습하여 지식 완성을 수행했다. 제안하는 방법의 성능을 측정하기 위해 Freebase와 WiseKB 데이터셋을 대상으로 최신 지식 완성 연구들과의 비교 실험을 진행하였고, 평균적으로 학습시간이 약 49%∼90% 감소했으며, 전체적인 성능이 약 6.7% 증가하는 것을 확인했다.

지식 베이스 임베딩을 활용한 지식 완성 모델링 기법

최현영, 홍지훈, 이완곤, 바트셀렘, 전명중, 박현규, 박영택

http://doi.org/10.5626/JOK.2018.45.9.895

최근 웹 데이터를 기반으로 자동적으로 지식베이스를 구축하는 방법들이 연구되고 있지만, 웹데이지터의 불완전성으로 인해 일부 데이터가 누락되거나 다른 데이터와의 연결이 부족한 경우가 발생한다. 이러한 문제를 해결하기 위해 기존 연구들은 자연어 임베딩을 기반으로 인공 신경망을 통해 학습하는 방법들을 제안했다. 하지만 실제로 사용되는 많은 지식베이스의 경우 자연어 말뭉치가 존재하지 않아 엔티티 임베딩에 어려움이 있다. 따라서 본 논문에서는 이러한 문제점을 해결하기 위해 지식 베이스의 RDF 데이터를 문장 형태의 RDF-Sentence로 변환 후 임베딩에 사용하여 단어 벡터를 생성하고 신경망을 사용하는 지식 완성 기법을 제안한다. 본 논문에서는 제안하는 방법의 성능을 측정하기 위해 트리플 분류 실험을 진행했다. 기존 NTN 모델과 비교 실험을 수행하였고, 기존 연구보다 평균적으로 15% 높은 정확도를 얻었다. 또한, 한국어 최대 지식 베이스인 WiseKB 지식 베이스에 적용하여 88%의 정확도를 얻었다.

인메모리 기반의 클러스터 환경에서 분산 병렬 SWRL 추론에 대한 연구

이완곤, 배석현, 박영택

http://doi.org/10.5626/JOK.2018.45.3.224

최근 들어 대용량 온톨로지를 사용하여 분산 환경에서 사용자 정의 규칙을 기반으로 하는 SWRL 추론엔진에 대한 연구가 다양하게 진행되고 있다. 스키마를 기반으로 하는 공리 규칙과 다르게 SWRL 규칙들은 미리 효율적인 추론 순서를 정의할 수 없다. 또한 불필요한 반복과정으로 인해 많은 양의 네트워크 셔플링이 발생한다. 이러한 문제점들을 해결하기 위해서 본 논문에서는 Map-Reduce 알고리즘과 인메모리 기반의 분산처리 프레임워크를 활용하여 동시에 여러 규칙을 추론할 수 있고, 클러스터의 노드간에 발생하는 데이터 셔플링의 양을 최소화할 수 있는 방법을 제안한다. 제안하는 방법의 성능을 측정하기 위해 약 2억 트리플로 구성된 WiseKB 온톨로지와 36개의 사용자 정의 규칙을 사용하여 실험을 진행했고 약 16분이 소요되었다. 또한 LUBM 벤치 마크 데이터를 이용한 비교 실험에서 기존 연구보다 2.7배 높은 성능을 보였다.

SWAT: 분산 인-메모리 시스템 기반 SWRL과 ATMS의 효율적 결합 연구

전명중, 이완곤, 바트셀렘, 박현규, 박영택

http://doi.org/10.5626/JOK.2018.45.2.113

최근 빅데이터의 시대가 도래하여 다양한 분야로부터 다량의 지식을 얻을 수 있다. 수집된 지식은 정형화된 형태의 지식으로 가공하여 표현되며, 그 중 W3C의 온톨로지 표준 언어인 OWL이 대표적인 정형화 표현 형식이다. 이렇게 표현된 대용량의 온톨로지로부터 내재된 정보를 도출하기 위해 다양한 방법의 심볼릭 추론(Symbolic Reasoning) 연구가 활발하게 진행되고 있다. 그러나 대부분의 추론 연구들은 서술논리(Description Logic)표현 기반의 제한적인 규칙표현을 지원하며 실생활 기반의 서비스를 구축하기에는 많은 제약이 따른다. 또한 잘못된 지식으로부터 도출된 결과는 규칙들 사이의 종속관계에 따라 연쇄적으로 잘못된 지식이 생산될 수 있기 때문에 이러한 잘못된 지식에 대한 처리를 위한 지식관리가 필요하다. 따라서 본 논문에서는 해당 문제를 해결하기 위해 SWRL(Semantic Web Rule Language) 기반의 추론과 ATMS(Assumption-based Truth Maintenance System)간의 결합을 통해 새롭게 도출된 지식에 대한 관리를 할 수 있는 SWAT(SWRL + ATMS) 시스템을 제안한다. 또한 이 시스템은 대용량 데이터를 처리하기 위해 분산 인-메모리 프레임워크 기반의 SWRL추론과 ATMS를 병합 구축하였으며 이를 바탕으로 웹 형태의 ATMS 모니터링 시스템을 통하여 사용자가 손쉽게 잘못된 지식을 검색 및 수정할 수 있도록 한다. 본 논문에서 제안하는 방법에 대한 평가를 위해 LUBM(Lehigh University Benchmark)데이터 셋을 사용하였으며, 대용량 데이터에 대한 SWRL 추론과 잘못 추론된 정보에 대한 삭제를 통해 효율적인 추론과 관리가 가능한 결합 방법임을 증명한다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr