디지털 라이브러리[ 검색결과 ]
API 정보와 기계학습을 통한 윈도우 실행파일 분류
소프트웨어 분류 기법은 저작권 침해 탐지, 악성코드의 분류, 소프트웨어 보관소의 소프트웨어 자동분류 등에 활용할 수 있으며, 불법 소프트웨어의 전송을 차단하기 위한 소프트웨어 필터링 시스템에도 활용할 수 있다. 소프트웨어 필터링 시스템에서 유사도 측정을 통해 불법 소프트웨어를 식별할 경우, 소프트웨어 분류를 활용하여 탐색 범위를 축소하면 평균 비교 횟수를 줄일 수 있다. 본 논문은 API 호출 정보와 기계학습을 통한 윈도우즈 실행파일 분류를 연구한다. 다양한 API 호출 정보 정제 방식과 기계학습 알고리즘을 적용하여 실행파일 분류 성능을 평가한다. 실험 결과, PolyKernel을 사용한 SVM (Support Vector Machine)이 가장 높은 성공률을 보였다. API 호출 정보는 바이너리 실행파일에서 추출할 수 있는 정보이며, 기계학습을 적용하여 변조 프로그램을 식별하고 실행파일의 빠른 분류가 가능하다. 그러므로 API 호출 정보와 기계학습에 기반한 소프트웨어 분류는 소프트웨어 필터링 시스템에 활용하기에 적당하다.
코드 커버리지를 높이기 위한 상태 머신 변환 방법
모델 기반 테스팅은 시스템의 행위를 표현하는 모델을 시스템 명세로 활용하여 테스트를 수행하는 기술이다. 자동차, 국방/항공, 의료, 철도, 원자력과 같은 산업 도메인에서는 소프트웨어의 품질 향상을 위해 모델 기반 테스팅과 코드 커버리지 기반 테스팅을 요구하고 있다. 모델 기반 테스팅과 코드 커버리지 기반 테스팅이 모두 요구됨에도 모델과 소스 코드 간의 추상화 수준 차이로 인해 모델 기반 테스팅만으로 높은 코드 커버리지를 달성하는 것이 어려워 모델 기반 테스팅과 코드 커버리지 기반 테스팅이 별도로 수행되어져 왔다. 본 연구에서는 기존의 모델 기반 테스팅의 한계점을 개선하기 위하여 모델 기반 테스팅에서 테스트 모델로서 이용되는 대표적인 모델링 방법 중 하나인 프로토콜 상태 머신을 테스트 모델로서 이용하여 효과적으로 코드 커버리지를 향상시키는 상태 머신 변환 방법을 제안한다. 또한 본 연구에서는 두 시스템을 대상으로 한 사례 연구를 수행하여 제안 방법의 효과성을 분석하였다.
질의응답 시스템에서 처음 보는 단어의 역문헌빈도 기반 단어 임베딩 기법
질의응답 시스템은 사용자의 질문에 대한 답을 찾아주는 시스템으로, 기존의 검색엔진이 사용자의 질의에 대해 관련된 문서의 링크만을 찾아주는 반면 질문에 대한 최종적인 답을 찾아준다는 차이점이 있다. 특정 분야에 국한되지 않고 다양한 질문을 처리해주는 오픈 도메인 질의응답 시스템에 필요한 연구들이 최근 자연어 처리, 인공지능, 데이터 마이닝 등 학계의 다양한 분야들에서 뜨거운 관심을 받고있다. 하지만 관련 연구에서는 학습 데이터에는 없었던 단어들이 질문에 대한 정확한 답과 유사한 오답을 구별해내는데 결정적인 역할을 할 수 있음에도, 이러한 처음 보는 단어들을 모두 단일 토큰으로 치환해버리는 문제가 있다. 본 논문에서는 문맥 정보를 통해 이러한 모르는 단어에 대한 벡터를 계산하는 방법을 제안한다. 그리고 역문헌빈도 가중치를 활용하여 문맥정보를 더 효율적으로 처리하는 모델을 제안한다. 또한 풍부한 실험을 통해 질의응답 시스템의 모델 학습 속도 및 정확성이 기존 연구에 비해 향상됨을 확인하였다.
양자 기계학습 기술의 현황 및 전망
본고에서는 양자역학 기반의 기계학습인 양자 기계학습의 현황과 전망을 조망하고자 한다. 양자역학 기반의 양자컴퓨팅이 보여준 혁신적인 계산속도 개선에 힘입어 기계학습 분야에 양자컴퓨팅 알고리즘을 적용하는 연구는 빅데이터 시대의 도래에 따라 최근 집중적인 관심을 받고 있다. 고전적인 기계학습 알고리즘들에 양자컴퓨팅을 접목하여 획기적인 속도개선을 가능하게 하는 알고리즘 연구들과 최초의 상용 양자컴퓨터로 화제가 되고 있는 양자 담금질 알고리즘 등을 중심으로 양자 기계학습의 최신동향과 가능성을 살펴보고자 한다.
기분석사전과 기계학습 방법을 결합한 음절 단위 한국어 품사 태깅
본 논문은 음절 단위 한국어 품사 태깅 방법의 성능 개선을 위해 기분석사전과 기계학습 방법을 결합하는 방법을 제안한다. 음절 단위 품사 태깅 방법은 형태소분석을 수행하지 않고 품사 태깅만을 수행하는 방법이며, 순차적 레이블링(Sequence Labeling) 문제로 형태소 태깅 문제를 접근한다. 본 논문에서는 순차적 레이블링 기반 음절 단위 품사 태깅 방법의 전처리 단계로 품사 태깅말뭉치와 국어사전으로부터 구축된 복합명사 기분석사전과 약 1천만 어절의 세종 품사 태깅말뭉치로부터 자동 추출된 어절 사전을 적용함으로써 품사 태깅 성능을 개선시킨다. 성능 평가를 위해서 약 74만 어절의 세종 품사 태깅말 뭉치로부터 67만 어절을 학습 데이터로 사용하고 나머지 7만 4천 어절을 평가셋으로 사용하였다. 기계학습 방법만을 사용한 경우에 96.4%의 어절 정확도를 보였으며, 기분석사전을 결합한 경우에는 99.03%의 어절 정확도를 보여서 2.6%의 성능 개선을 달성하였다. 퀴즈 분야의 평가셋으로 실험한 경우에도 기계학습 엔진은 96.14% 성능을 보인 반면, 하이브리드 엔진은 97.24% 성능을 보여서 제안 방법이 다른 분야에도 효과적임을 확인하였다.
컴퓨터 게임의 NPC를 위한 적응적 경로 이동의 구현
컴퓨터 게임에서 NPC(NonPlayer Character)의 획일적인 경로 이동은 게임 플레이어의 흥미를 떨어뜨리는 요인이 된다. 웨이포인트 그래프를 이용한 길찾기의 경우, NPC가 지정된 위치만을 이용하여 이동하게 되므로 이 문제점은 더욱 두드러져 보인다. 본 논문에서는 이 문제의 해결을 위해 플레이어의 이동을 관찰하여 NPC가 적응적으로 경로를 계획할 수 있도록 하는 방법을 제안한다. 제안하는 방법은 우선, 플레이어 이동의 포인트 지정을 관찰하여 웨이포인트를 동적으로 수정하고, 수정된 웨이포인트들을 NPC의 경로 탐색에 이용하는 것이다. 또한 플레이어의 지형 선호도를 학습하여 NPC별로 특성에 맞는 경로를 계획하기 위한 알고리즘을 제안한다. 유니티 4.0으로 제작된 RPG(Role Playing Game) 게임으로 구현된 알고리즘을 시뮬레이션하여 NPC 이동이 다양해지고 플레이어의 이동과 유사한 방향으로 개선됨을 확인한다.
분류 우선순위 적용과 후보정 규칙을 이용한 효과적인 한국어 화행 분류
화행이란 발화 속에 포함되어 있는 화자에 의해 의도된 언어적 행위이다. 대화 시스템에서 입력된 발화에 적합한 화행을 분류하는 것은 중요하다. 기존의 화행분류에 관한 연구는 규칙기반과 기계학습기반의 방법을 많이 사용한다. 본 논문에서는 대표적인 기계학습 방법인 지지벡터기계(SVM)와 변환기반 학습(TBL)을 조합한 화행 분류 방법을 제안한다. 이를 위해, 화행별 학습 발화의 수에 기반하여 분류 우선순위를 조정함으로써 지지벡터기계의 분류 편향 문제를 해결하였고, 오답일 확률이 높은 분류 결과에 대해서 변환 기반 학습을 통해 생성된 보정 규칙을 적용함으로써 화행분류 성능을 개선하는 방법을 제안한다. 본 논문에서 화행별 학습 발화 수의 차이를 고려한 분류 우선순위 변화와 후보정 규칙을 이용한 화행분류 방법을 실험을 통해 평가하였으며, 이는 학습 발화 수가 낮은 화행의 우선순위를 고려하지 않은 기존의 화행 분류보다 성능이 향상되었다.
안드로이드 OS에서 앱 설치 의사결정 지원을 위한 악성 앱 분류 시스템
안드로이드 시스템은 권한 기반의 접근제어 기능을 제공하고, 사용자로 하여금 앱 설치시 앱이 가진 권한을 통해 설치여부를 판단하도록 요구하고 있지만, 대부분의 사용자는 이것을 무시하거나 모르고 지나치는 경향이 있다. 따라서 사용자가 이와 같은 중요한 단계에 주어진 역할을 직관적으로 수행할 수 있도록 하기 위한 개선된 방법이 필요하다. 본 논문에서는 퍼미션 기반 접근제어 시스템을 위해 사용자의 의사결정을 즉각 지원할 수 있는 새로운 기법을 기계학습에 기반하여 연구하고 제안한다. 구체적으로 K-최근접 이웃 알고리즘을 목적에 맞게 수정하여 악성앱 가능성 판단에 대한 연구를 진행하였으며, 특성으로 안드로이드의 권한 152개를 사용했다. 실험 결과 약 93.5%의 정확도를 보였으며 유사한 알고리즘, 혹은 특성으로 권한만을 사용한 기존의 연구결과에 비해 우수한 분류 결과를 보였다. 이는 K-최근접 이웃 알고리즘의 범주 선택시 가중합을 반영했기 때문이다. 본 연구결과는 사용자가 권한을 검토하고 설치할 때 의사결정에 도움을 줄 수 있을 것으로 기대된다.
SMP 가상 머신의 I/O 지연 시간 감소를 위한 이벤트 라우팅 기법
vCPU(virtual CPU)는 하이퍼바이저 스케줄러에 의해서 실행 상태와 정지 상태를 반복하는 특징을 갖는다. 정지 상태인 vCPU에게 전달된 이벤트는 vCPU가 실행 상태가 될 때까지 처리되지 못하고 지연 된다. 이러한 이벤트 지연 현상은 I/O 지연 현상으로 나타난다. SMP(symmetric multiprocessing) 가상 머신은 다수의 vCPU를 이용하기 때문에 이벤트를 어느 vCPU에게 전달하는지에 따라 SMP 가상머신의 이벤트 지연 시간이 달라 질 수 있다. SMP 가상 머신의 이벤트 지연 시간을 줄이기 위해서 본 논문에서는 각 vCPU의 동작 상태에 따라서 이벤트를 전달하는 새로운 기법인 이벤트 라우팅 기법을 제안한다. 제안한 이벤트 라우팅 기법을 Xen ARM 하이퍼바이저에 적용하였고 다양한 실험 환경에서 네트워크 RTT(round trip time)와 TCP 대역폭 측정을 통해 I/O 지연 시간 감소를 확인하였다. 기존 Xen ARM 과 비교하여 네트워크 RTT는 최대 94% 감소하였고, TCP 대역폭은 최대 35% 증가하였다.
인지적 색 차이 기반의 이미지 품질 평가 기법 및 왜곡 종류에 따른 평가 시스템 제안
현재까지 인간 시각 체계를 정확하게 반영하기 위한 이미지 평가 기법에 대한 연구가 많이 이루어져 오고 있다. SSIM은 인간의 시각 체계가 이미지의 구조적 정보에 예민하다는 점을 이용하여 구조적 정보를 이용하여 이미지를 평가하는 대표적인 인간 시각 체계를 만족시키는 평가 기법이다. 하지만 SSIM은 이미지의 색 차이를 반영하지 못하는 문제가 있다. 이러한 문제를 해결하기 위해, HSI 색 공간을 활용한 SHSIM 기법이 제안되었으나 두 컬러 이미지 간 인지적 색 차이를 충분히 반영하지는 못하고 있다. 본 논문에서는 CIE Lab 색 공간을 도입하여 대응 되는 픽셀들의 인지적 색 차이를 계산하여 이미지 평가에 활용하는 방법을 제안한다. 그리고 연구를 더 확장하여, SVM 분류기를 활용하여 왜곡 종류에 따라 최적의 평가 수식을 적용하는 최적화 시스템을 제안한다. 제안하는 기법을 평가하기 위해, 이미지 평가분야에서 가장 많이 알려진 LIVE 데이터베이스를 사용하였으며 네 종류의 평가 기준들을 이용하였다. 실험 결과에서는 제안하는 기법이 다른 기법들보다 인간 시각 체계와 더 상관성이 높다는 것을 보여준다.