디지털 라이브러리[ 검색결과 ]
순서 정보 기반 악성코드 분류 가능성
http://doi.org/10.5626/JOK.2017.44.11.1125
LSTM(Long Short-term Memory)은 이전 상태의 정보를 기억하여 현재 상태에 반영해 학습하는 순환신경망(Recurrent Neural Network) 모델이다. 악성코드에서 선형적 순서 정보는 각 시점에서 호출되는 함수로서 정의 가능하다. 본 논문에서는 LSTM 모델의 이전 상태를 기억하는 특성을 이용하며, 시간 순서에 따른 악성코드의 함수 호출 정보를 입력으로 사용한다. 그리고 실험으로서 우리가 제시한 방법이 악성코드 분류가 가능함을 보이고 순서 정보의 길이 변화에 따른 정확률을 측정한다.
초기 소량 데이터와 RNN을 활용한 루머 전파 추적 기법
http://doi.org/10.5626/JOK.2017.44.7.680
온라인 소셜미디어의 등장으로 방대한 사용자 데이터가 수집되고 이는 루머의 탐지와 같은 복잡하고 도전적인 사회 문제를 자료 기반 기법으로 해결할 수 있게끔 한다. 최근 딥러닝 기반 모델들이 이러한 문제를 해결하기 위한 빠르고 정확한 기법 중의 하나로서 소개되었다. 하지만 기존에 제시된 모델들은 전파 종료 후 작동하거나 오랜 관찰기간을 필요로 하여 활용성이 제한된다. 이 연구에서는 초기 소량데이터만을 활용하는 recurrent neural networks (RNNs) 기반의 빠른 루머 분류 알고리즘을 제안한다. 제시된 모델은 소셜미디어 스트림을 시계열 자료로 변환하여 사용하며, 이 때 시계열 데이터는 팔로워 수와 같이 정보 전파자 관련 정보는 물론 주어진 컨텐츠에서 추론한 언어심리학적 감성의 점수로 구성된다. 수백만의 트윗을 포함하는 498개의 실제 루머 및 494개의 비루머 사례 분석을 통해 이 연구는 제안하는 RNN 기반 모델이 초기 30개의 트윗 만으로도 (초기 수시간) 0.74 F1의 높은 성능을 보임을 확인한다. 이러한 결과는 실제 응용가능한 수준의 빠르고 효율적인 루머 분류 알고리즘 개발의 초석이 된다.
빅데이터 검색 정확도에 미치는 다양한 측정 방법 기반 검색 기법의 효과
빅데이터의 공급이 늘어남에 따라, 이로부터 유용한 정보를 추출해내기 위한 학계와 업계의 연구가 활발히 진행 되고 있다. 특히 분석한 정보의 특징과 함께, 정보 검색 시 검색자의 의도를 함께 반영하여 정보를 여과해 주는 것이 대부분의 연구의 최종 목표이다. 정확하게 분석된 자료는 기업이 제공하는 서비스에 대한 사용자의 충성도를 높여주고, 사용자 스스로 보다 효율적이고 효과적으로 정보를 이용할 수 있게 된다. 본 논문에서는 가장 높은 빈도로 사용되는 검색 분야인 기사를 검색하는 경우의 정확도를 높이기 위해, 관련 데이터를 TF-IDF, 결정 트리, 코사인 유사도, 단순 베이지안 분류기 등의 다양한 측도 방법으로 평가해 보고, 이를 분석하였다. 또한, 분석 결과를 바탕으로 가장 적합한 측도 방법을 제안한다.
네트워크 플로우의 연관성 모델을 이용한 트래픽 분류 방법
구영훈, 심규석, 이성호, Baraka D. Sija, 김명섭
오늘날의 네트워크는 고속화와 유비쿼터스 환경으로 인해 다양한 응용이 급속도로 생성되고 있으며 네트워크 트래픽도 매우 복잡해지고 있다. 이에 효율적인 네트워크 운용 및 관리를 위한 구체적인 단위의 트래픽 분류가 필수적이다. 다양한 트래픽 분류 방법이 연구되고 있는 가운데 아직 트래픽을 완벽하게 분류해내는 방법론은 개발되지 않은 실정이다. 이에 본 논문에서는 네트워크 플로우의 연관성 모델을 정의하고 이를 기반으로 트래픽을 분류하는 방법을 제안한다. 트래픽 분류를 위한 네트워크 플로우의 연관성 모델은 크게 유사성 모델과 연결성 모델로 이루어진다. 제안하는 방법론을 효과적으로 적용하기 위한 방안을 제시하며 실험을 통해 본 분류 방법론이 높은 정확도와 분석률의 방법론이라는 것을 증명한다.
미디어 분류를 위한 온톨로지 스키마 자동 생성
UCC와 SNS 등을 통해 개인 미디어가 다양한 방식으로 생성됨에 따라 미디어를 분석하고 인지하는 기술에 대한 연구가 진행되고 있으며, 이를 통해 객체 인지의 수준이 향상되었다. 그 결과 기존의 제목, 태그 및 스크립터 정보를 이용한 추론 방식과 달리 미디어에서 인지되는 객체를 활용하는 영상 분류 추론 연구가 수행되고 있다. 하지만 추론을 위한 미디어 온톨로지 모델링을 사람이 직접 수행해야 하기 때문에 많은 시간과 비용이 발생하는 단점이 있다. 따라서 본 논문에서는 미디어 분류를 위한 온톨로지 스키마 모델링의 자동화 방법을 제안한다. 영상에서 인지되는 객체의 빈도에 따른 OWL-DL 공리의 특성을 고려하여 온톨로지 모델 생성의 자동화 방안에 대하여 설명한다. 유튜브에서 수집한 15가지의 카테고리에 대한 영상으로부터 온톨로지 모델을 자동 생성하여 추론을 통해 미디어 분류의 정확도에 대한 실험을 수행하였다. 실험결과 15가지 영상 이벤트의 행위 약 1500개에 대하여 영상 분류를 수행한 결과, 86%의 정확도를 얻었고, 온톨로지 모델링의 자동화 방법에 대한 타당한 성능을 보였다.
API 정보와 기계학습을 통한 윈도우 실행파일 분류
소프트웨어 분류 기법은 저작권 침해 탐지, 악성코드의 분류, 소프트웨어 보관소의 소프트웨어 자동분류 등에 활용할 수 있으며, 불법 소프트웨어의 전송을 차단하기 위한 소프트웨어 필터링 시스템에도 활용할 수 있다. 소프트웨어 필터링 시스템에서 유사도 측정을 통해 불법 소프트웨어를 식별할 경우, 소프트웨어 분류를 활용하여 탐색 범위를 축소하면 평균 비교 횟수를 줄일 수 있다. 본 논문은 API 호출 정보와 기계학습을 통한 윈도우즈 실행파일 분류를 연구한다. 다양한 API 호출 정보 정제 방식과 기계학습 알고리즘을 적용하여 실행파일 분류 성능을 평가한다. 실험 결과, PolyKernel을 사용한 SVM (Support Vector Machine)이 가장 높은 성공률을 보였다. API 호출 정보는 바이너리 실행파일에서 추출할 수 있는 정보이며, 기계학습을 적용하여 변조 프로그램을 식별하고 실행파일의 빠른 분류가 가능하다. 그러므로 API 호출 정보와 기계학습에 기반한 소프트웨어 분류는 소프트웨어 필터링 시스템에 활용하기에 적당하다.
DNN 학습을 이용한 퍼스널 비디오 시퀀스의 멀티 모달 기반 이벤트 분류 방법
최근 스마트 기기의 보급으로 자유롭게 비디오 컨텐츠를 생성하고 이를 빠르고 편리하게 공유할 수 있는 네트워크 환경이 갖추어지면서, 퍼스널 비디오가 급증하고 있다. 그러나, 퍼스널 비디오는 비디오라는 특성 상 멀티 모달리티로 구성되어 있으면서 데이터가 시간의 흐름에 따라 변화하기 때문에 이벤트 분류를 할 때 이에 대한 고려가 필요하다. 본 논문에서는 비디오 내의 멀티 모달리티들로부터 고수준의 특징을 추출하여 시간 순으로 재배열한 것을 바탕으로 모달리티 사이의 연관관계를 Deep Neural Network(DNN)으로 학습하여 퍼스널 비디오 이벤트를 분류하는 방법을 제안한다. 제안하는 방법은 비디오에 내포된 이미지와 오디오를 시간적으로 동기화하여 추출한 후 GoogLeNet과 Multi-Layer Perceptron(MLP)을 이용하여 각각 고수준 정보를 추출한다. 그리고 이들을 비디오에 표현된 시간순으로 재 배열하여 비디오 한 편당하나의 특징으로 재 생성하고 이를 바탕으로 학습한 DNN을 이용하여 퍼스널 비디오 이벤트를 분류한다.
낚시성 인터넷 신문기사 검출을 위한 특징 추출
스마트 기기의 발달로 많은 사람들이 인터넷 신문기사를 이용하고 있다. 하지만 인터넷 언론사 간의 치열한 경쟁으로 조회수를 올리기 위한 낚시성 기사가 범람하고 있다. 낚시성 신문기사는 제목을 통해 올바른 기사의 줄거리가 제공되지 않았을 뿐만 아니라, 독자로 하여금 잘못된 내용을 떠올리게 한다. 낚시성 신문기사는 핵심에서 벗어난 유명인사 인용, 애매한 문장의 마무리, 제목과 내용의 불일치 등의 특징을 갖는다. 본 논문에서는 이러한 낚시성 기사를 분류하기 위한 특징을 추출하고 성능을 검증해 본다. 기사에 달린 댓글의 키워드를 활용하여 대용량 학습데이터를 생성하고 이를 기반으로 다섯 가지 분류 특징을 추출하였다. 추출된 특징들은 서포트 벡터 머신 분류기를 이용한 실험에서 92%의 정확도를 보여 낚시성 인터넷 신문기사를 분류하는데 적합하다고 판단된다. 뿐만 아니라 제목과 본문의 일관성을 측정하기 위한 전처리 방법으로 고안한 선택적 바이그램 모델은 낚시성 인터넷 신문기사 분류 외에도 일반적인 단문 분석을 위한 전처리 방법으로 유용할 것으로 기대된다.
속성값 기반의 정규화된 로지스틱 회귀분석 모델
로지스틱 회귀분석은 통계학 등의 분야에서 예측을 위한 기술 혹은 변수 간의 상관관계를 설명하기 위하여 오랫동안 사용되어 왔다. 이러한 로지스틱 회귀분석 방법에서 현재 각 속성들은 목적 값에 대하여 동일한 중요도를 가지고 있다. 본 연구에서는 이러한 가중치 계산을 좀더 세분화하여 각 속성의 값이 서로 다른 중요도를 가지는 새로운 학습 방법을 제시한다. 알고리즘의 성능을 최대화하는 각 속성값 가중치의 값을 계산하기 위하여 점진적 하강법을 이용하여 개발하였다. 본 연구에서 제안된 방법은 다양한 데이터를 이용하여 실험하였고 속성값 기반 로지스틱 회귀분석 방법은 기존의 로지스틱 회귀분석보다 우수한 학습 능력을 보임을 알 수 있었다.
다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템
커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다.