디지털 라이브러리[ 검색결과 ]
원소들의 발생 순서와 시간 간격을 모두 고려하는 효과적인 이상 시퀀스 탐지 기법
http://doi.org/10.5626/JOK.2021.48.4.469
최근 다양한 응용에서 시간의 흐름에 따라 관측된 원소들로 구성된 시퀀스 데이터가 활발하게 생성되고 있다. 주어진 시퀀스들 중에서 이상(anomalous) 시퀀스를 탐지하는 기법들은 활발히 연구되어 왔으나 이들 대부분은 주로 원소들의 발생 순서들만을 고려한다. 본 논문에서는 원소들의 발생 순서뿐만이 아니라 원소들 사이의 시간 간격까지 고려한 효과적인 이상 시퀀스 탐지 기법을 제안한다. 이를 위해 제안 방법은 두 개의 오토인코더를 결합한 모델을 사용한다. 첫 번째는 LSTM 오토인코더로서 원소들의 발생 순서에 대한 특징을 학습하며, 두 번째는 그래프 오토인코더로서 원소들 간 시간 간격에 대한 특징을 학습한다. 학습이 완료되면 각 시퀀스를 학습된 모델에 입력하여 모델이 복원한 원소들의 발생 순서 및 원소들 간의 시간 간격이 원 시퀀스와 차이가 큰 시퀀스를 이상 시퀀스로 판단한다. 본 논문에서는 가상데이터를 사용한 다양한 실험을 통해 제안 방법이 RNN 오토인코더로 학습하는 방법 및 단일 LSTM 오토인코더만을 사용하는 방법 그리고 딥러닝을 사용하지 않는 방법보다 효과적으로 이상 시퀀스를 탐지함을 확인하였다.
허혈성 심장질환 진단을 위한 기계 학습 알고리즘 비교 연구
http://doi.org/10.5626/JOK.2018.45.4.376
최근, 인공지능에 대한 연구가 활발히 진행되고 있고, 인공지능 기술을 통한 정확하고 효율적인 의사결정이 가능해지고 있다. 또한, 점차 의료 지식 및 관련 데이터의 축적이 가속화되고 있으며, 인공지능 기술을 통한 질환 진단 및 처방에 대한 연구도 활발히 진행되고 있다. 본 연구에서는 대표적인 심혈관 질환인 허혈성 심장질환을 연구 도메인으로 설정하고, 해당 질환의 진단을 위한 의료 전문가 시스템내에서 활용이 가능한 알고리즘과 효율적인 접근 방식을 비교 및 분석하여 제안한다. 본 연구의 궁극적 목표는 기존 환자의 초진기록 데이터를 바탕으로 의료 전문가 및 의사를 보조하는 것으로, 허혈성 심장질환에 대한 인과 관계 설명에 도움을 주고, 불필요한 관련 검사를 최소화한다는 데에 그 의미가 있다. 또한, 실험 데이터를 구성하여 의료 전문가 및 의사는 학습용 모델로 활용하면서, 이를 통해 경험과 지식을 효율적으로 극대화할 수 있다.
질의응답 시스템에서 처음 보는 단어의 역문헌빈도 기반 단어 임베딩 기법
질의응답 시스템은 사용자의 질문에 대한 답을 찾아주는 시스템으로, 기존의 검색엔진이 사용자의 질의에 대해 관련된 문서의 링크만을 찾아주는 반면 질문에 대한 최종적인 답을 찾아준다는 차이점이 있다. 특정 분야에 국한되지 않고 다양한 질문을 처리해주는 오픈 도메인 질의응답 시스템에 필요한 연구들이 최근 자연어 처리, 인공지능, 데이터 마이닝 등 학계의 다양한 분야들에서 뜨거운 관심을 받고있다. 하지만 관련 연구에서는 학습 데이터에는 없었던 단어들이 질문에 대한 정확한 답과 유사한 오답을 구별해내는데 결정적인 역할을 할 수 있음에도, 이러한 처음 보는 단어들을 모두 단일 토큰으로 치환해버리는 문제가 있다. 본 논문에서는 문맥 정보를 통해 이러한 모르는 단어에 대한 벡터를 계산하는 방법을 제안한다. 그리고 역문헌빈도 가중치를 활용하여 문맥정보를 더 효율적으로 처리하는 모델을 제안한다. 또한 풍부한 실험을 통해 질의응답 시스템의 모델 학습 속도 및 정확성이 기존 연구에 비해 향상됨을 확인하였다.
모바일 및 웨어러블 센서 데이터를 이용한 다양한 식사상황 인식 시스템
최근 모바일 환경의 다양한 센서 정보를 이용한 상황인지 서비스가 활발히 연구되고 있다. 본 논문에서는 모바일 및 웨어러블 센서 데이터를 사용해 다양한 맥락에서 나타날 수 있는 사용자의 식사상황을 효과적으로 인식할 수 있는 확률모델을 제안한다. 식사행위와 관련된 상황들을 체계적으로 모델링하기 위해 행위이론의 4가지 행위 요소 및 육하원칙의 5가지 구성 요소들을 모바일 및 웨어러블의 저수준 센서 데이터로 추론 가능한 범위에 맞게 통합하여 인식모델을 구축하고, 트리구조의 베이지안 네트워크 모델링 방식을 사용하여 인식의 경량화를 시도하였다. 제안하는 시스템의 유용성을 입증하기 위하여 1주일간 다양한 배경의 4명 사용자로부터 식사상황 및 일상생활에 대한 383분의 데이터를 수집하였다. 실험결과 기존의 대표적인 분류기들과 비교하여 상대적으로 우수한 인식률(93.21%)이 도출되는 것을 확인하였다. 또한 실제 시나리오를 통한 내부 분석을 수행하여 인식에 사용되는 각 요소들의 유용성을 검증하였다.
Min-Hash를 이용한 효율적인 대용량 그래프 클러스터링 기법
그래프 클러스터링은 서로 유사한 특성을 갖는 정점들을 동일한 클러스터로 묶는 기법으로 그래프 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 소셜 네트워크 서비스와 월드 와이드 웹, 텔레폰 네트워크 등의 다양한 응용분야에서 크기가 큰 대용량 그래프 데이터가 생성되고 있다. 이에 따라서 대용량 그래프 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. 본 논문에서는 대용량 그래프 데이터의 클러스터들을 효율적으로 생성하는 클러스터링 알고리즘을 제안한다. 우리의 제안 기법은 그래프 내의 클러스터들 간의 유사도를 Min-Hash를 이용하여 효과적으로 추정하고 계산된 유사도에 따라서 클러스터들을 생성한다. 실세계 데이터를 이용한 실험에서 우리는 본 논문에서 제안하는 기법과 기존 그래프 클러스터링 기법들과 비교하여 제안기법의 효율성을 보였다.
주성분 분석의 안전한 다자간 계산
최근 대용량 데이터 대상의 프라이버시 보호 데이터 마이닝(privacy-preserving data mining : PPDM)이 활발히 연구되고 있다. 본 논문에서는 민감한 데이터 집합의 상관관계를 파악하는데 널리 사용되는 주성분 분석 기반의 PPDM을 다룬다. 일반적으로 주성분 분석은 모든 데이터를 한 곳에 모아 처리해야 하므로 민감한 데이터가 서로에게 공개되고, 상당한 계산량을 요구하며, 또한 데이터를 모으는 과정에서 많은 통신 오버헤드가 발생한다. 이러한 문제를 해결하기 위하여 본 논문은 데이터를 한 곳에 모으지 않고도 주성분 분석을 안전하게 계산하는 효율적인 방법을 제안한다. 제안하는 방법은 노드들 간에 한정된 정보만을 공유하면서도 원래의 주성분 분석 결과와 동일한 결과를 얻을 수 있다. 또한 안전한 주성분 분석에 저차원 변환을 적용하여 안전한 유사 문서 검색에 사용한다. 마지막으로 다양한 실험을 통해 제안한 방법이 대용량의 다차원 데이터에서 효율적으로 동작함을 확인한다.
상관계수의 안전한 다자간 계산
본 논문에서는 분산 컴퓨팅 환경에서 데이터 제공자들이 각자 소유한 데이터의 프라이버시는 보호하면서도 피어슨(Pearson) 상관계수와 스피어만(Spearman)의 순위상관계수를 안전하게 계산하는 해결책을 각각 제안한다. 분산 컴퓨팅 환경에서 마이닝(또는 데이터 분석)을 수행하기 위해서는 원본 데이터를 상대방에게 제공해야 한다. 그러나, 원본 데이터는 민감한 정보를 포함하는 경우가 많고, 이때 데이터 제공자(소유자)는 프라이버시 보호를 이유로 정확한 값을 직접 노출하기를 원하지 않는다. 본 논문에서는 분산 컴퓨팅 환경의 데이터 제공자들이 각자 소유한 데이터는 상대방에게 공개하지 않으면서 상관관계를 계산하는 문제, 즉 안전한 상관관계 계산(SCC: Secure Correlation Computation) 문제를 정형적으로 정의한다. 그리고, 임의 행렬 기반 안전한 스칼라 곱을 사용하여 피어슨 상관계수와 순위상관계수에 대한 SCC 문제를 해결하는 방법을 각각 제안한다. 제안한 해결책이 바르게 수행함을 보이기 위해, 정확성과 안전성을 정리로 제시하고 증명한다. 또한, 실험을 통해 제안한 기법이 수행 시간 측면에서도 실용적인 방법임을 보인다.