디지털 라이브러리[ 검색결과 ]
대용량 스트리밍 센서데이터 환경에서 RDFS 규칙기반 병렬추론 기법
최근 스마트폰의 폭발적인 보급, IoT와 클라우드 컴퓨팅 기술의 고도화, 그리고 IoT 디바이스의 보편화로 대용량 스트리밍 센싱데이터가 출현하였다. 또한 이를 기반으로 데이터의 공유와 매쉬업 통해 새로운 데이터의 가치를 창출하기 위한 요구사항의 증대로 대용량 스트리밍 센싱데이터 환경에서 시맨틱 웹 기술과의 접목에 관한 연구가 활발히 진행되고 있다. 하지만 데이터의 대용량성?스트리밍성으로 인해 새로운 지식을 도출하기 위한 지식 추론분야에서 많은 이슈들에 직면하고 있다. 이러한 배경하에, 본 논문에서는 IoT 환경에서 발생하는 대용량 스트리밍 센싱데이터를 시맨틱웹 기술로 처리하여 서비스하기 위해 RDFS 규칙기반 병렬추론 기법을 제시한다. 제안된 기법에서는 기존의 규칙추론 알고리즘인 Rete 알고리즘을 하둡프레임워크 맵리듀스를 통해 병렬로 수행하고, 공용 스토리지로서 하둡 데이터베이스인 HBase를 사용하여 데이터를 공유한다. 이를 위한 시스템을 구현하고, 대용량 스트리밍 센싱데이터인 기상청 AWS 관측데이터를 이용하여 제시된 기법에 대한 성능평가를 진행하고, 이를 입증한다.
단일 세포 분화 궤적 추론을 위한 시계열 다중 클러스터링 기법
http://doi.org/10.5626/JOK.2022.49.10.838
시계열 단일 세포 전사체 데이터에서 유전자 발현 정보는 중요한 세포의 분화 변화 시점을 관찰하기 위해 생성되며 실험조건과 관련하여 중요한 생물학적 현상 설명이 가능하다. 최근 시계열 단일 세포 전사체 데이터가 급증함에 따라 세포주기 및 분화와 같은 세포의 다양한 동적인 변화에 대한 연구가 활발히 진행되고 있다. 특히, 세포 분화에 대하여 단일 세포 수준에서의 시계열 분석은 시간 축으로의 변화 관찰이 가능하여 단일 시점에 비해 생물학적 해석이 유리하다. 본 논문에서는 시계열 단일 세포 전사체 데이터를 활용해 유전체 수준에서 시간 정보를 고려하여 세포 궤적을 추론하는 다중 클러스터링 기법을 제안한다. 해당 기법을 사용해 인간 뇌세포 분화과정에 대한 유전자 발현 데이터를 분석한 결과 사전 연구에서 밝혀낸 생물학적인 결과와 유사한 결과를 찾아냈다.
뉴로 심볼릭 기반 규칙 유도 및 추론 엔진을 활용한 지식 완성 시스템
http://doi.org/10.5626/JOK.2021.48.11.1202
최근 지식 그래프의 불완전성 문제를 해결하기 위한 다양한 지식 완성 연구중 딥러닝 학습 방법과 로직 시스템의 장점을 결합한 NTP(Neural Theorem Prover)와 같은 연구가 기존 연구들에 비해 좋은 성능을 내고 있다. 하지만 NTP는 하나의 입력에 대한 예측 결과를 얻기 위해 지식 그래프의 모든 트리플이 연산에 관여하게 되므로 대용량 지식 그래프 처리에 한계가 있다. 본 논문에서는 NTP의 계산 복잡도 문제를 개선한 모델로부터 심볼의 벡터 표현을 학습하여 규칙을 유도하고, 추론 엔진을 사용하여 유도된 규칙으로부터 지식 추론을 수행할 수 있는 딥러닝 학습 방식과 로직 추론 방식의 통합시스템을 제안한다. 본 논문에서 사용한 규칙 생성모델의 규칙유도 성능 검증을 위해 NTP와 Nations, Kinship, UMLS 데이터 셋을 대상으로 유도된 규칙을 활용한 테스트 데이터 추론가능 여부를 비교하였으며, 대규모 지식그래프인 Kdata와 WiseKB를 사용한 실험에서는 추론 엔진을 통한 지식 추론 결과 실험에 사용된 지식 그래프에 비해 각각 Kdata는 30%, WiseKB는 95%증가된 지식 그래프를 얻을 수 있었다.
데이터 스트림 분류를 위한 딥러닝 추론 모델의 분산 처리
http://doi.org/10.5626/JOK.2021.48.10.1154
다양한 분야에서 데이터 스트림이 생성되고 있으며, 이를 딥러닝에 적용하는 활용 사례가 증가하고 있다. 딥러닝을 사용하여 데이터 스트림을 분류하기 위해서는 서빙(serving)을 통해 모델을 실시간 실행시켜야 한다. 이러한 서빙 모델은 gRPC 또는 HTTP 통신으로 인해 데이터 스트림을 분류에 큰 지연 시간이 발생한다. 또한, 서빙된 모델이 높은 복잡도를 가지는 스태킹 추론 모델이라면, 데이터 스트림 분류에 더 큰 지연시간이 발생한다. 이를 해결하기 위해, 본 논문에서는 아파치 스톰(Apache Storm)을 사용한 데이터 스트림 분류의 분산 처리 해결책을 제안한다. 첫째, 기존 서빙 방법으로 데이터 스트림을 분류할 때 발생하는 지연시간을 줄이기 위해 아파치 스톰 기반 실시간 분산 추론 기법을 제안한다. 실험 결과, 제안한 분산 추론 기법이 기존 서빙 방법에 비해 최대 11배까지 지연시간을 줄인 것으로 나타났다. 둘째, 스태킹을 적용한 악성 URL 탐지 모델로 URL 스트림을 분류할 때의 지연시간을 줄이기 위해, 네 가지 분산처리 기법을 제안한다. 제안하는 분산 처리 기법은 Independent Stacking, Sequential Stacking, Semi-Sequential Stacking, Stepwise-Independent Stacking이다. 실험 결과, 독립적 수행과 순차적 처리의 특성을 가진 Stepwise-Independent Stacking이 가장 작은 지연시간을 보여, URL 스트림 분류에 가장 적합한 것으로 나타났다.
APT 공격 사례 기반 보안 요구사항 추천 프레임워크
http://doi.org/10.5626/JOK.2021.48.9.1014
지능형 지속 위협(APT, Advanced Persistent Threat) 공격은 특정 대상에 지능적이며 지속적으로 공격을 가하는 기법이다. 분명한 공격 목적을 가지고, 공격 대상에 조직적이고 고도화된 기술을 사용하며, 특정 기간 동안 탐지되지 않고 지속적으로 공격을 시도하므로 탐지와 방어가 어려운 공격 중 하나이다. 본 논문은 APT 공격에 대한 선제적 방어 방법으로 실제 발생한 APT 공격에 대한 보안 요구사항을 추천하는 프레임워크를 제안한다. 제안하는 프레임워크는 특정 APT 공격에 대하여 시나리오를 기반으로 공격 요소를 도출하고 요소 간 관계를 분석한다. 분석 결과에 대한 사례 기반 추론을 통해 공격 패턴을 추론하고, 보안 요구사항을 추천한다. 사례 기반 추론과 보안 요구사항 추천을 위해 APT 공격 지식, 일반 보안 지식, 도메인 특화 지식을 포함하는 통합 지식 베이스를 구축하였다. 통합 지식 베이스는 지식별 온톨로지와 관련 데이터베이스로 구성된다. 본 프레임워크를 웹 어플리케이션으로 구현하여 특정 APT 공격에 대해 사례 연구를 수행하였다.
자연어 추론에서의 교차 검증 앙상블 기법
http://doi.org/10.5626/JOK.2021.48.2.154
앙상블 기법은 여러 모델을 종합하여 최종 판단을 산출하는 기계 학습 기법으로서 딥러닝 모델의 성능 향상을 보장한다. 하지만 대부분의 기법은 앙상블만을 위한 추가적인 모델 또는 별도의 연산을 요구한다. 이에 우리는 앙상블 기법을 교차 검증 방법과 결합하여 앙상블 연산을 위한 비용을 줄이며 일반화 성능을 높이는 교차 검증 앙상블 기법을 제안한다. 본 기법의 효과를 입증하기 위해 MRPC, RTE 데이터셋과 BiLSTM, CNN, ELMo, BERT 모델을 이용하여 기존 앙상블 기법보다 향상된 성능을 보인다. 추가로 교차 검증에서 비롯한 일반화 원리와 교차 검증 변수에 따른 성능 변화에 대하여 논의한다.
시각-언어 공동 임베딩과 지식 그래프 임베딩을 이용한 영상 기반 상식 추론
http://doi.org/10.5626/JOK.2020.47.10.985
본 논문에서는 영상 기반 상식 추론(VCR) 작업을 위한 새로운 모델을 제안한다. 제안 모델에서는 영상과 자연어 질문, 답변 리스트 등과 같은 멀티 모달 입력 데이터들 간의 상호 정렬을 요구하는 시각적 접지 문제에 효과적으로 대응하기 위해, 사전 학습된 시각-언어 모델에 시각적 바인딩 모듈을 추가하여 이들을 함께 임베딩한다. 또한, 제안 모델은 영상 기반 상식 추론에 필요한 공통 개념지식들을 공개 지식 베이스인 ConceptNet에서 추출하여 그래프 합성곱 신경망(GCN)을 이용해 임베딩한다. 본 논문에서는 제안 모델인 VLKG_VCR의 세부 설계사항들을 소개하고, 증진된 VCR 벤치마크 데이터 집합을 이용한 다양한 실험들을 통해 제안 모델의 성능을 입증한다.
지식 그래프를 이용한 오픈 도메인 질문 응답
http://doi.org/10.5626/JOK.2020.47.9.853
본 논문에서는 오픈 도메인의 복잡한 질문들에 효과적으로 응답하기 위한 새로운 지식 그래프 추론 모델 KGNet을 제안한다. 본 모델에서는 질문 응답에 이용할 지식 베이스의 불완전성 문제에 주목한다. 이를 위해 본 모델에서는 서로 다른 형태의 두 가지 지식 자원인 지식 베이스와 문서 집합 모두를 하나의 지식 그래프로 통합하여 답변 생성에 활용한다. 또한 본 모델에서는 지식 그래프 상에서 복잡한 멀티 홉 질문들에 관한 답변을 보다 효과적으로 유도해내기 위해, 그래프 신경망을 이용한 새로운 지식 임베딩과 추론 기법을 적용한다. 본 논문에서는 대표적인 질문 응답 벤치마크 데이터 집합인 WebQuestionsSP와 MetaQA를 이용한 다양한 실험들을 통해, 제안 모델의 효과와 우수성을 입증한다.
경로 임베딩 기반 지식 그래프 완성 방식
http://doi.org/10.5626/JOK.2020.47.8.722
지식 그래프는 질의응답 또는 추천시스템과 같은 지능형 시스템을 구성하는데 많이 사용된다. 그러나 지식 그래프에는 대부분의 엔티티들 사이에 관계 링크가 누락되어 있는 문제가 존재한다. 이런 문제를 해결하기 위해 본 논문에서 BLSTM(Bidirectional LSTM) 및 CNN(Convolutional Neural Network)을 결합한 새로운 지식 그래프 완성 방법을 제안한다. 우선, 후보 관계와 두개의 대상 엔티티가 주어지면 BLSTM 및 Convolution 연산을 사용하여 엔티티들을 연결하는 경로들을 저차원 공간으로 임베딩한다. 그리고 어텐션(attention) 모델을 통해 두 개의 엔티티를 표현하는 여러 경로들을 하나의 벡터로 만든다. 벡터와 추론할 후보 관계 사이의 연관성을 통해 후보 관계가 엔티티들과 연결될 수 있는지에 대한 가능성을 예측한다. 제안하는 방법은 CNN을 이용해서 주어진 엔티티들의 관계를 추론하기에 가장 중요한 지역특징(local feature)을 엔티티 사이에 있는 경로에서 추출하고 BLSTM을 이용해서 추출한 지역특징의 순서 관계에 대해 학습한다. 이를 통해 저차원 경로 특징을 효과적으로 학습 하는 것이 가능했으며, 학습된 특징들을 이용해 엔티티 사이의 관계를 예측하였다. 여러 지식 그래프를 대상으로 링크 예측(link prediction) 실험을 진행했으며, 제안하는 방법이 최신 연구 결과보다 높은 성능을 보였다.
온톨로지와 CNN 기반의 무인기와 주변 개체 간 위협 관계 추론
http://doi.org/10.5626/JOK.2020.47.4.404
무인기 스스로 주변 개체와의 관계를 파악하고 상황을 인지하는 기술은 다양한 분야에서 필요로 하는 기술이다. 이를 위해 다양한 방법이 연구되고 있다. 대부분의 연구는 관련 도메인의 지식을 온톨로지로 구축하고 이를 기반으로 지식 추론하는 방식으로 해결하고 있다. 하지만 이러한 방식은 관련 도메인 지식을 가진 전문가의 의존성 때문에 전문가의 부재 시, 새로운 상황에 대해 대처할 지식을 구축하기가 어렵다. 또한 전문가가 고려하지 못한 상황을 추론하기 위한 지식을 구축하기가 어렵다. 그래서 본 연구에서는 이와 같은 문제를 해결하기 위해 온톨로지와 CNN을 이용하여 무인기와 주변 개체 간의 관계를 추론하기 위한 모델을 구축하는 방식을 제안한다. 온톨로지 추론의 정확도는 부족하다는 가정에서 감지된 주변 개체들의 정보를 활용하여 온톨로지 추론을 먼저 수행한다. 그리고 온톨로지 추론 결과는 CNN을 사용하여 보정한다. 실제 데이터 확보의 한계로 인해 데이터 생성기를 구축하여 실 데이터와 유사한 데이터를 생성하였다. 본 연구의 평가를 위해 2가지 개체 간 관계에 대한 모델을 구축하여 평가하였으며 두 관계 모델 모두 90% 이상의 정확도를 보였다.