디지털 라이브러리[ 검색결과 ]
단일 세포 분화 궤적 추론을 위한 시계열 다중 클러스터링 기법
http://doi.org/10.5626/JOK.2022.49.10.838
시계열 단일 세포 전사체 데이터에서 유전자 발현 정보는 중요한 세포의 분화 변화 시점을 관찰하기 위해 생성되며 실험조건과 관련하여 중요한 생물학적 현상 설명이 가능하다. 최근 시계열 단일 세포 전사체 데이터가 급증함에 따라 세포주기 및 분화와 같은 세포의 다양한 동적인 변화에 대한 연구가 활발히 진행되고 있다. 특히, 세포 분화에 대하여 단일 세포 수준에서의 시계열 분석은 시간 축으로의 변화 관찰이 가능하여 단일 시점에 비해 생물학적 해석이 유리하다. 본 논문에서는 시계열 단일 세포 전사체 데이터를 활용해 유전체 수준에서 시간 정보를 고려하여 세포 궤적을 추론하는 다중 클러스터링 기법을 제안한다. 해당 기법을 사용해 인간 뇌세포 분화과정에 대한 유전자 발현 데이터를 분석한 결과 사전 연구에서 밝혀낸 생물학적인 결과와 유사한 결과를 찾아냈다.
뉴로 심볼릭 기반 규칙 유도 및 추론 엔진을 활용한 지식 완성 시스템
http://doi.org/10.5626/JOK.2021.48.11.1202
최근 지식 그래프의 불완전성 문제를 해결하기 위한 다양한 지식 완성 연구중 딥러닝 학습 방법과 로직 시스템의 장점을 결합한 NTP(Neural Theorem Prover)와 같은 연구가 기존 연구들에 비해 좋은 성능을 내고 있다. 하지만 NTP는 하나의 입력에 대한 예측 결과를 얻기 위해 지식 그래프의 모든 트리플이 연산에 관여하게 되므로 대용량 지식 그래프 처리에 한계가 있다. 본 논문에서는 NTP의 계산 복잡도 문제를 개선한 모델로부터 심볼의 벡터 표현을 학습하여 규칙을 유도하고, 추론 엔진을 사용하여 유도된 규칙으로부터 지식 추론을 수행할 수 있는 딥러닝 학습 방식과 로직 추론 방식의 통합시스템을 제안한다. 본 논문에서 사용한 규칙 생성모델의 규칙유도 성능 검증을 위해 NTP와 Nations, Kinship, UMLS 데이터 셋을 대상으로 유도된 규칙을 활용한 테스트 데이터 추론가능 여부를 비교하였으며, 대규모 지식그래프인 Kdata와 WiseKB를 사용한 실험에서는 추론 엔진을 통한 지식 추론 결과 실험에 사용된 지식 그래프에 비해 각각 Kdata는 30%, WiseKB는 95%증가된 지식 그래프를 얻을 수 있었다.
데이터 스트림 분류를 위한 딥러닝 추론 모델의 분산 처리
http://doi.org/10.5626/JOK.2021.48.10.1154
다양한 분야에서 데이터 스트림이 생성되고 있으며, 이를 딥러닝에 적용하는 활용 사례가 증가하고 있다. 딥러닝을 사용하여 데이터 스트림을 분류하기 위해서는 서빙(serving)을 통해 모델을 실시간 실행시켜야 한다. 이러한 서빙 모델은 gRPC 또는 HTTP 통신으로 인해 데이터 스트림을 분류에 큰 지연 시간이 발생한다. 또한, 서빙된 모델이 높은 복잡도를 가지는 스태킹 추론 모델이라면, 데이터 스트림 분류에 더 큰 지연시간이 발생한다. 이를 해결하기 위해, 본 논문에서는 아파치 스톰(Apache Storm)을 사용한 데이터 스트림 분류의 분산 처리 해결책을 제안한다. 첫째, 기존 서빙 방법으로 데이터 스트림을 분류할 때 발생하는 지연시간을 줄이기 위해 아파치 스톰 기반 실시간 분산 추론 기법을 제안한다. 실험 결과, 제안한 분산 추론 기법이 기존 서빙 방법에 비해 최대 11배까지 지연시간을 줄인 것으로 나타났다. 둘째, 스태킹을 적용한 악성 URL 탐지 모델로 URL 스트림을 분류할 때의 지연시간을 줄이기 위해, 네 가지 분산처리 기법을 제안한다. 제안하는 분산 처리 기법은 Independent Stacking, Sequential Stacking, Semi-Sequential Stacking, Stepwise-Independent Stacking이다. 실험 결과, 독립적 수행과 순차적 처리의 특성을 가진 Stepwise-Independent Stacking이 가장 작은 지연시간을 보여, URL 스트림 분류에 가장 적합한 것으로 나타났다.
자연어 추론에서의 교차 검증 앙상블 기법
http://doi.org/10.5626/JOK.2021.48.2.154
앙상블 기법은 여러 모델을 종합하여 최종 판단을 산출하는 기계 학습 기법으로서 딥러닝 모델의 성능 향상을 보장한다. 하지만 대부분의 기법은 앙상블만을 위한 추가적인 모델 또는 별도의 연산을 요구한다. 이에 우리는 앙상블 기법을 교차 검증 방법과 결합하여 앙상블 연산을 위한 비용을 줄이며 일반화 성능을 높이는 교차 검증 앙상블 기법을 제안한다. 본 기법의 효과를 입증하기 위해 MRPC, RTE 데이터셋과 BiLSTM, CNN, ELMo, BERT 모델을 이용하여 기존 앙상블 기법보다 향상된 성능을 보인다. 추가로 교차 검증에서 비롯한 일반화 원리와 교차 검증 변수에 따른 성능 변화에 대하여 논의한다.
지식 그래프를 이용한 오픈 도메인 질문 응답
http://doi.org/10.5626/JOK.2020.47.9.853
본 논문에서는 오픈 도메인의 복잡한 질문들에 효과적으로 응답하기 위한 새로운 지식 그래프 추론 모델 KGNet을 제안한다. 본 모델에서는 질문 응답에 이용할 지식 베이스의 불완전성 문제에 주목한다. 이를 위해 본 모델에서는 서로 다른 형태의 두 가지 지식 자원인 지식 베이스와 문서 집합 모두를 하나의 지식 그래프로 통합하여 답변 생성에 활용한다. 또한 본 모델에서는 지식 그래프 상에서 복잡한 멀티 홉 질문들에 관한 답변을 보다 효과적으로 유도해내기 위해, 그래프 신경망을 이용한 새로운 지식 임베딩과 추론 기법을 적용한다. 본 논문에서는 대표적인 질문 응답 벤치마크 데이터 집합인 WebQuestionsSP와 MetaQA를 이용한 다양한 실험들을 통해, 제안 모델의 효과와 우수성을 입증한다.
온톨로지와 CNN 기반의 무인기와 주변 개체 간 위협 관계 추론
http://doi.org/10.5626/JOK.2020.47.4.404
무인기 스스로 주변 개체와의 관계를 파악하고 상황을 인지하는 기술은 다양한 분야에서 필요로 하는 기술이다. 이를 위해 다양한 방법이 연구되고 있다. 대부분의 연구는 관련 도메인의 지식을 온톨로지로 구축하고 이를 기반으로 지식 추론하는 방식으로 해결하고 있다. 하지만 이러한 방식은 관련 도메인 지식을 가진 전문가의 의존성 때문에 전문가의 부재 시, 새로운 상황에 대해 대처할 지식을 구축하기가 어렵다. 또한 전문가가 고려하지 못한 상황을 추론하기 위한 지식을 구축하기가 어렵다. 그래서 본 연구에서는 이와 같은 문제를 해결하기 위해 온톨로지와 CNN을 이용하여 무인기와 주변 개체 간의 관계를 추론하기 위한 모델을 구축하는 방식을 제안한다. 온톨로지 추론의 정확도는 부족하다는 가정에서 감지된 주변 개체들의 정보를 활용하여 온톨로지 추론을 먼저 수행한다. 그리고 온톨로지 추론 결과는 CNN을 사용하여 보정한다. 실제 데이터 확보의 한계로 인해 데이터 생성기를 구축하여 실 데이터와 유사한 데이터를 생성하였다. 본 연구의 평가를 위해 2가지 개체 간 관계에 대한 모델을 구축하여 평가하였으며 두 관계 모델 모두 90% 이상의 정확도를 보였다.
관계적 메모리 코어 구조를 적용한 변분적 순환신경망
http://doi.org/10.5626/JOK.2020.47.2.189
순차적 데이터(sequential data)를 위한 생성모델(generative model) 학습을 위해서 순환신경망(RNN; recurrent neural network) 기반의 모델들이 제안되고 있는 가운데, 순환신경망에 변분오토인코더(VAE; variational autoencoder) 의 요소를 도입하여 복잡한 순차적 데이터 분포를 표현 가능하게 하는 변분적 순환신경망(VRNN; variational recurrent neural network)이 제시된 바 있다. 한편, 최근 셀프어텐션(self-attention) 기반의 메모리 구조를 RNN에 도입하여 입력 간의 관계를 고려할 수 있는 구조를 가진 관계적 메모리 코어(RMC; relational memory core)가 제안되어 순차적 데이터 처리에 있어서 성능을 높인 바 있다. 이 논문에서는 관계적 메모리 코어 구조를 VRNN에 도입해 순차적 입력데이터들 간에 한층 심화된 관계적 추론을 가능하게 하는 모델인 변분-관계적 메모리 코어(VRMC; varitional relational memory core)를 제안한다. 또한, 음악생성 데이터 기반의 실험을 통해 기존 VRNN보다 비해 성능이 나아짐을 보이고 이를 통해 본 연구에서 제시한 모델이 순차적 데이터를 모델링하는 데 있어서 더 효과적임을 보이려 한다.
스마트폰 어플리케이션 설치 목록을 이용한 사용자 특성 추론
http://doi.org/10.5626/JOK.2018.45.12.1240
스마트폰의 사용이 보편화됨에 따라 개인화 서비스에 대한 요구가 증가하고 있다. 이에 따라 개인화 서비스를 제공할 때 유용하게 활용될 수 있는 사용자 특성을, 데이터 기반으로 통계 학습을 이용해 추론하는 연구가 활발히 진행되고 있다. 본 연구에서는 사용자의 관심사와 생활습관을 반영하고 있을 뿐만 아니라, 적은 비용으로 수집할 수 있는 어플리케이션 설치 목록으로부터 요인 벡터를 추출하여 사용자 특성을 추론한다. 추론 과정에서는 설치 목록과 더불어 어플리케이션 스토어에서 획득 가능한 메타정보인 카테고리와 설명글을 이용하여 사용자를 표현하는 네 가지 요인 벡터를 만들어 사용한다. 특히, 인공 신경망 기반의 텍스트 임베딩 기법인 Doc2Vec을 설명글에 적용한 요인 벡터를 사용한다. 또한, 요인 벡터 추출에 이용되는 어플리케이션을 선별하는 기준을 제시하여 추론 성능을 높이고자 하였다. 국내 스마트폰 사용자 100명으로부터 데이터를 수집하여 성별, 연령, 연애 상태, 거주형태, 동거 여부, 수입 수준, 지출 수준, 신장, 체중, 종교, 이수 학기, 단과대학을 추론하는 실험을 수행했으며, 제안 기법의 우수성을 확인하였다.
문장 수반 관계를 고려한 문서 요약
문서의 요약은 요약문 내의 문장들끼리 서로 연관성 있게 이어져야 하고 하나의 짜임새 있는 글이 되어야 한다. 본 논문에서는 위의 목적을 달성하기 위해 문장 간의 유사도와 수반 관계(Entailment)를 고려하여 문서 내에서 연관성이 크고 의미, 개념적인 연결성이 높은 문장들을 추출할 수 있도록 하였다. 본 논문에서는 Recurrent Neural Network 기반의 문장 관계 추론 모델과 그래프 기반의 랭킹(Graphbased ranking) 알고리즘을 혼합하여 단일 문서 추출요약 작업에 적용한 새로운 알고리즘인 TextRank-NLI를 제안한다. 새로운 알고리즘의 성능을 평가하기 위해 기존의 문서요약 알고리즘인 TextRank와 동일한 데이터 셋을 사용하여 성능을 비교 분석하였으며 기존의 알고리즘보다 약 2.3% 더 나은 성능을 보이는 것을 확인하였다.
리팩토링을 위한 소프트웨어 메트릭의 베이지안 네트워크 기반 확률적 관리
최근 지능형 스마트 디바이스의 눈부신 발전과 사용으로 개발 단계의 소프트웨어 결함 관리의 중요성이 부각되고 있다. 효과적 결함 관리를 위해 소프트웨어 메트릭을 토대로 많은 결함 예측 모델 연구가 수행되고 있지만, 결함 예측 모델 연구 성과가 널리 확산되지는 못하고 있다. 본 논문에서는 결함 존재 유무에 관한 이진적 결함 예측 모델의 제약을 극복할 수 있도록, 베이지안 네트워크 기반 확률적 소프트웨어 메트릭 관리 방법을 제안한다. 제안 모델은 소프트웨어 메트릭을 활용하여 베이지안 네트워크를 구성하고, 이를 토대로 베이지안 추론을 수행하여 리팩토링을 위한 개선점을 식별할 수 있는 모델이다. 코드리팩토링을 통해 소스 코드가 개선되면 관련 메트릭 측정값 또한 변하게 된다. 제안 모델은 리팩토링을 통한 메트릭의 개선으로 얻을 수 있는 결함 제거 효과를 확률 값으로 제시해준다. 따라서 이진 값 형태의 확정성을 극복할 수 있으며, 불확정적인 확률 값으로 의사결정의 유연성을 확보할 수 있을 것이다.