디지털 라이브러리[ 검색결과 ]
GPT-2를 이용한 지식 그래프 완성
http://doi.org/10.5626/JOK.2021.48.12.1281
지식 그래프는 많은 인공지능 작업에서 중요한 자원이 된다. 불완전한 지식 그래프를 지식 완성을 하는 많은 연구들이 진행되고 있으며, 그 중에서도 링크 예측, 관계 예측 등을 하여 지식 완성을 하는 연구에 대한 관심이 높아지고 있다. 인공지능의 자연어 처리에서 가장 화제가 되는 언어 모델에는 BERT, GPT-2가 있으며 그 중 BERT로 지식 완성 문제를 해결하고자 하는 KG-BERT가 있다. 본 논문에서는 최근 인공지능의 언어 모델에서 가장 큰 화제인 GPT-2를 활용하여 지식 완성 문제를 해결해 보고자 한다. 언어 모델인 GPT-2를 활용하여 지식 완성 문제를 해결하기 위한 방법으로 트리플 정보 기반지식 완성, 경로 및 트리플 기반 지식 완성을 제안하고 설명하였다. 이 본 논문에서 제안하는 모델은 KG-GPT2로 정의하였으며, 지식 완성 성능을 평가하기 위하여 TransE, TransR, KG-BERT, KG-GPT2의 링크 예측, 관계 예측 결과를 비교하는 방식으로 실험을 진행하였다. 링크 예측의 경우 WN18RR, FB15k-237, UMLS 데이터셋을 사용하였고, 관계 예측의 경우 FB15K를 사용하였다. 실험 결과로, KG-GPT2의 경로 및 트리플 기반 지식 완성에서 링크 예측의 경우 UMLS를 제외한 모든 실험 데이터셋에 대하여 가장 우수한 성능을 기록하였다. KG-GPT2의 경로 및 트리플 기반 지식 완성에서 모델의 관계 예측 작업 또한 FB15K 데이터셋에 대하여 가장 우수한 성능을 기록하였다.
상위 클래스 정보와 사전 학습된 언어 모델을 이용한 지식 그래프 완성 모델
http://doi.org/10.5626/JOK.2021.48.11.1228
링크 예측은 지식 그래프에서 누락된 링크를 추론하는 것을 목표로 한다. 최근 지식 그래프를 완성하기 위해 다양한 링크 예측 모델이 연구되었고 의미 있는 결과를 얻었다. 그러나 기존 모델은 학습 트리플의 내재적 정보만 사용하여 학습하기 때문에 과적합 되는 문제가 있다. 이러한 문제를 해결하기 위해, 우리는 개체의 추상적 정보를 학습할 수 있는 상위 클래스 예측과 링크 예측을 multi-task learning 방법으로 수행하는 "상위 클래스 정보와 사전 학습된 언어 모델을 이용한 지식 그래프 완성 모델(HIP)"을 제안한다. HIP의 상위 클래스 예측 작업은 트리플의 문맥적 정보뿐만 아니라 개체의 추상적 정보 학습을 통해 같은 상위 클래스 정보를 갖는 개체들이 비슷한 임베딩을 가지며 개체의 일반적인 정보를 학습한다. 실험 결과 KG-BERT 및 MTL-KGC 모델에 비해 Hits@10과 Mean Rank (MR)에서 의미 있는 성능 향상을 보였다.
뉴로 심볼릭 기반 규칙 유도 및 추론 엔진을 활용한 지식 완성 시스템
http://doi.org/10.5626/JOK.2021.48.11.1202
최근 지식 그래프의 불완전성 문제를 해결하기 위한 다양한 지식 완성 연구중 딥러닝 학습 방법과 로직 시스템의 장점을 결합한 NTP(Neural Theorem Prover)와 같은 연구가 기존 연구들에 비해 좋은 성능을 내고 있다. 하지만 NTP는 하나의 입력에 대한 예측 결과를 얻기 위해 지식 그래프의 모든 트리플이 연산에 관여하게 되므로 대용량 지식 그래프 처리에 한계가 있다. 본 논문에서는 NTP의 계산 복잡도 문제를 개선한 모델로부터 심볼의 벡터 표현을 학습하여 규칙을 유도하고, 추론 엔진을 사용하여 유도된 규칙으로부터 지식 추론을 수행할 수 있는 딥러닝 학습 방식과 로직 추론 방식의 통합시스템을 제안한다. 본 논문에서 사용한 규칙 생성모델의 규칙유도 성능 검증을 위해 NTP와 Nations, Kinship, UMLS 데이터 셋을 대상으로 유도된 규칙을 활용한 테스트 데이터 추론가능 여부를 비교하였으며, 대규모 지식그래프인 Kdata와 WiseKB를 사용한 실험에서는 추론 엔진을 통한 지식 추론 결과 실험에 사용된 지식 그래프에 비해 각각 Kdata는 30%, WiseKB는 95%증가된 지식 그래프를 얻을 수 있었다.
문서 쌍 유사도 판별을 위한 문장 상호 관계 및 그래프 기반 모델의 앙상블
http://doi.org/10.5626/JOK.2021.48.11.1184
뉴스 기사와 같은 문서 클러스터링에서 두 문서 간의 유사도는 클러스터의 특성을 결정하는 중요한 부분 중 하나이다. 기존 딥러닝 기반 접근 방법인 시퀀스 유사도 측정 모델은 문서 단위에서 나타나는 긴 문맥을 반영하지 못하는 문제점을 가지고 있다. 본 연구에서는 뉴스 클러스터링에 적합한 문서 쌍 유사도 모델을 구성하기 위해 상호 작용 기반 접근, 그래프 기반 접근 방법을 사용한다. 상호 작용 기반 접근에서는 문서 쌍 내 다수의 문장 표현들 간의 유사도 정보를 종합해 전체 문서 쌍의 유사도를 측정하는 네 가지 유사도 모델을 제안한다. 기존 접근 방법들인 SVM, HAN에 비해 두 가지 접근 방법에서 높은 성능이 나타남을 확인했다. 그래프 기반 접근에서는 입력에 사용되는 자질의 종류와 신경망의 깊이에 따른 성능 변화를 확인했다. 또한, 상이한 두 접근 방법이 갖는 예측양상의 차이와 상호보완성을 오류 분석과 앙상블을 통해 확인했다.
이분 매칭 기반의 가지치기를 활용한 부분 그래프 동형 알고리즘 성능 향상
http://doi.org/10.5626/JOK.2021.48.9.973
대형 그래프에 대한 분석은 최근 다양한 분야에서 점차 중요해지고 있다. 그래프 분석에서 가장 핵심적인 문제 중 하나로 부분 그래프 동형(subgraph isomorphism) 문제가 있다. 부분 그래프 동형 문제란 데이터 그래프와 쿼리 그래프가 주어졌을 때, 데이터 그래프에서 쿼리 그래프의 임베딩이 존재하는지 확인하는 문제이다. 부분 그래프 동형 문제를 해결하는 많은 알고리즘이 제시되어왔지만 여전히 특정 입력에서는 답을 찾기 위해 알고리즘이 동작하는 시간이 긴 경우가 있어서 실제 문제에 적용이 어려운 경우가 있다. 본 논문에서는 실행 시간을 획기적으로 줄일 수 있는 이분 매칭 알고리즘을 활용한 가지치기 기법을 소개하고 실제 그래프 데이터상에서 실험을 진행하여 제시한 기법이 문제를 효율적으로 해결하는 데 도움이 되는 방법임을 입증했다.
링크 속성 기반 분류를 통한 커뮤니티 발견
http://doi.org/10.5626/JOK.2021.48.8.959
빠르고 복잡하게 진화하는 세상을 이해하기 위하여 데이터를 통해 지식을 발견하는 시도는 점차 다양화되고 있다. 개체들이 관계를 갖고 얽혀있는 데이터를 그래프로 모델링하고 분석하는 그래프 데이터 분석은 최신 기계학습 기법과 접목되면서 많은 관심을 끌고 있다. 본 논문에서는 그래프 커뮤니티 구조를 발견하기 위한 새로운 방법론을 제안한다. 커뮤니티 내부 및 외부에 존재하는 링크들이 다른 속성값을 갖도록 하는 유사도, 곡률 기반 속성들에 대해 분석하고, 이를 활용하여 커뮤니티 구조에 영향을 덜 끼치는 링크를 제거하여 더 희소한 그래프에서 더 향상된 커뮤니티 구조를 찾아내는 알고리즘을 설계 및 분석한다.
EFA-DTI: Edge Feature Attention을 활용한 약물-표적 상호작용 예측
에르햄바야르 자담바, 김수헌, 이현수, 김화종
http://doi.org/10.5626/JOK.2021.48.7.825
신약개발은 의약 화학, 시스템 및 구조 생물학, 더 나아가 인공지능에 이르기까지 다양한 학문을 필요로 하기 때문에 난이도가 높은 분야라고 할 수 있다. 특히, 약물-표적 상호작용(DTI) 예측은 방대한 양의 화합물로부터 질병을 치료할 수 있는 후보 물질을 도출해내는 과정으로, 신약 개발 과정에 있어 핵심 요소다. 최근에는 컴퓨터 성능이 비약적으로 발전함에 따라, DTI 예측에 소요되는 여러 측면의 비용을 줄이고자 인공지능 신경망을 활용하는 연구가 활발히 진행되고 있다. 따라서, 본 논문에서는 Edge Feature Attention을 적용한 Graph Net Embedding 및 Fingerprint를 활용한 약물 표현 생성과 ProtTrans를 활용한 단백질 표현 생성을 통해 약물과 표적 단백질 간의 상호작용 수치를 예측하는 모델을 제안한다. 해당 모델은 기존의 DTI 연구에서 가장 좋은 성능을 보였던 DeepDTA, GraphDTA보다 높은 성능을 달성하였으며, 이에 대한 실험 및 결과를 기술하였다.
질의문과 지식 그래프 관계 학습을 통한 지식 완성 시스템
http://doi.org/10.5626/JOK.2021.48.6.649
지식 그래프는 개체들 사이의 관계로 구성된 네트워크를 뜻한다. 이러한 지식 그래프에서 특정 개체들에 대한 관계가 누락되거나 잘못된 관계 연결과 같은 문제로 불완전한 지식 그래프의 문제점이 존재한다. 불완전한 지식 그래프의 문제를 해결하기 위한 많은 연구는 자연어 임베딩 기반으로 인공 신경망을 이용한 학습 방법들을 제안했다. 이러한 방법들로 다양한 지식 그래프 완성 시스템들이 연구되고 있는데 본 논문에서는 특정 질의와 지식 그래프를 활용해 누락된 지식을 추론하는 시스템을 제안하였다. 먼저 의문형의 Query로부터 topic을 자동으로 추출하여 해당 topic 임베딩을 지식 그래프 임베딩 모듈로부터 얻는다. 그 다음 Query 임베딩과 지식 그래프 임베딩을 활용하여 지식 그래프로부터의 topic과 질의문 사이의 관계를 학습하여 새로운 트리플을 추론한다. 이와 같은 방식을 통해 누락된 지식들을 추론하고 좋은 성능을 위해 특정 질의와 관련된 지식 그래프의 술어부 임베딩을 같이 활용하였고 기존 방법보다 더 좋은 성능을 보임을 증명하기 위해 MetaQA 데이터셋을 사용하여 실험을 진행하였다. 지식 그래프는 영화를 도메인으로 갖는 지식 그래프를 사용하였다. 실험 결과로 지식 그래프 전체와 누락된 지식 그래프를 가정하여 트리플들을 임의로 50% 누락시킨 지식 그래프에서 실험하여 기존 방법보다 더 좋은 성능을 얻었다.
Explanation segments 기반 설명 가능한 지식 완성 모델
http://doi.org/10.5626/JOK.2021.48.6.680
최근 딥러닝을 활용하여 불완전한 지식 그래프를 대상으로 새로운 링크를 예측하는 연구가 많이 진행되고 있지만, 딥러닝을 활용한 링크 예측은 추론 결과에 대한 설명이 불가능하다는 한계점이 있다. 따라서 본 논문에서는 링크 예측 후, 추론 결과를 뒷받침하는 증거로서 설명 가능한 추론 경로를 제공하여 지식 완성의 효용성이 높은 모델을 제안한다. 이를 위해 우선 지식 그래프의 주어를 시작으로 목적어로 도달하는 또 다른 경로를 Path Ranking Algorithm 활용하여 생성하며, 이를 explanation segment라 정의하였다. 이 후 생성된 explanation segment를 CNN과 양방향 LSTM을 결합한 방식을 적용하여 임베딩 한다. 마지막으로 임베딩 된 explanation segment들과 추론할 후보 술어와의 의미적 유사성 계산을 기반으로 한 어텐션 메커니즘을 적용하여, 링크 예측 모델을 학습하였다. 모델 학습 후 링크 예측 설명에 적합한 explanation segment를 어텐션 점수에 기반으로 선정하여 제공한다. 제안하는 방법의 성능을 측정하기 위해 링크 예측 비교 실험 및 링크 예측 결과에 대한 설명으로 적합한 explanation segment의 비율을 측정하는 정확성 검증 실험을 진행하였다. 실험 데이터는 벤치마크 데이터인 NELL-995, FB15K-237, Countries를 대상으로 진행하였으며, 정확성 검증 실험에서 평균 89%. 44%, 97% 정확성을 보였고, 기존 연구와 비교했을 때, NELL-995는 평균 35%p, FB15K-237은 평균 21%p 높은 성능을 보였다.
원소들의 발생 순서와 시간 간격을 모두 고려하는 효과적인 이상 시퀀스 탐지 기법
http://doi.org/10.5626/JOK.2021.48.4.469
최근 다양한 응용에서 시간의 흐름에 따라 관측된 원소들로 구성된 시퀀스 데이터가 활발하게 생성되고 있다. 주어진 시퀀스들 중에서 이상(anomalous) 시퀀스를 탐지하는 기법들은 활발히 연구되어 왔으나 이들 대부분은 주로 원소들의 발생 순서들만을 고려한다. 본 논문에서는 원소들의 발생 순서뿐만이 아니라 원소들 사이의 시간 간격까지 고려한 효과적인 이상 시퀀스 탐지 기법을 제안한다. 이를 위해 제안 방법은 두 개의 오토인코더를 결합한 모델을 사용한다. 첫 번째는 LSTM 오토인코더로서 원소들의 발생 순서에 대한 특징을 학습하며, 두 번째는 그래프 오토인코더로서 원소들 간 시간 간격에 대한 특징을 학습한다. 학습이 완료되면 각 시퀀스를 학습된 모델에 입력하여 모델이 복원한 원소들의 발생 순서 및 원소들 간의 시간 간격이 원 시퀀스와 차이가 큰 시퀀스를 이상 시퀀스로 판단한다. 본 논문에서는 가상데이터를 사용한 다양한 실험을 통해 제안 방법이 RNN 오토인코더로 학습하는 방법 및 단일 LSTM 오토인코더만을 사용하는 방법 그리고 딥러닝을 사용하지 않는 방법보다 효과적으로 이상 시퀀스를 탐지함을 확인하였다.