디지털 라이브러리[ 검색결과 ]
비격식 문서 분류 성능 개선을 위한 LDA 단어 분포 기반의 자질 확장
트위터, 페이스북, 온라인 고객 리뷰 등은 신문기사처럼 정제된 글이 아닌 자유롭게 기술되는 비격식(informal) 텍스트 문서에 속한다. 이러한 비격식 문서에서 일관된 규칙이나 패턴을 찾는 일은 격식(formal) 문서 경우에 비해 용이하지 않기 때문에, 비격식 문서 분석을 위해서는 성능 개선을 위한 추가적인 접근 방법 필요다고 판단된다. 본 연구에서는 대표적 비격식 문서인 트위터 데이터를 열 가지 카테고리로 분류함에 있어 LDA(Latent Dirichlet allocation) 단어 분포를 사용하여 자질(feature)을 교정하고 확장한다. 토픽별로 상위에 랭크된 단어 자질들을 기반으로 다른 단어 자질들을 분해 및 병합하는 방식으로 유용한 자질 집합을 반복적으로 확장시킨다. 이렇게 생성된 자질로 문서 분류를 수행한 결과 자질 확장 이전에 비해 마이크로 평균 F1-score 7.11%p의 성능 개선 효과를 확인할 수 있었다.
Word Embedding 자질을 이용한 한국어 개체명 인식 및 분류
한국어 개체명 인식에 다양한 연구가 있었지만, 영어 개체명 인식에 비해 자질이 부족한 문제를 가지고 있다. 본 논문에서는 한국어 개체명 인식의 자질 부족 문제를 해결하기 위해 word embedding 자질을 개체명 인식에 사용하는 방법을 제안한다. CBOW(Continuous Bag-of-Words) 모델을 이용하여 word vector를 생성하고, word vector로부터 K-means 알고리즘을 이용하여 군집 정보를 생성한다. word vector와 군집 정보를 word embedding 자질로써 CRFs(Conditional Random Fields)에 사용한다. 실험 결과 TV 도메인과 Sports 도메인, IT 도메인에서 기본 시스템보다 각각 1.17%, 0.61%, 1.19% 성능이 향상되었다. 또한 제안 방법이 다른 개체명 인식 및 분류 시스템보다 성능이 향상되는 것을 보여 그 효용성을 입증했다.
미디어 영상 자동 분류를 위한 온톨로지 모델링 및 규칙 기반 추론
최근 스마트 디바이스가 많이 보급되면서 개인 영상 미디어가 다양한 방식으로 생성되어 영상미디어를 이용한 서비스가 요구되고 있다. 이에 따라 영상 미디어 분석 및 인지 기술에 대한 연구가 활발히 진행되어, 영상으로부터 의미 있는 객체를 인지할 수 있게 되었다. 기존의 미디어 온톨로지를 이용한 시스템은 영상의 제목, 태그 및 스크립터 정보를 이용하기 때문에 영상에 등장하는 객체를 통해 미디어 분류를 수행할 수 없는 단점이 있다. 따라서 본 논문에서는 영상 미디어 데이터에서 인지되는 객체들을 이용해 해당 영상이 속하는 범주로 자동 분류하기 위해 서술논리 기반(Description Logic) 추론 시스템과 순서에 따라 달라질 수 있는 이벤트 처리를 위한 규칙 기반 추론 시스템을 제안한다. 제안하는 서술논리 기반 추론 시스템은 영상 미디어에서 인지되는 객체들의 관계를 서술논리로 정의된 행위(Activity) 온톨로지로 표현하고, 실체화 추론을 통해 인지된 객체가 행위로 추론되는 방법에 대해 설명한다. 규칙 기반 추론 시스템은 추론된 행위의 순서에 따른 이벤트를 정의하고 순서 기반 규칙 추론을 이용하여 범주에 알맞은 이벤트로 자동 분류하는 방법에 대하여 설명한다. 제안하는 방법의 타당성을 증명하기 위해 유투브의 영상에 대한 분석을 통해 올바른 범주로 분류된 미디어 데이터를 구성하여 제안하는 시스템의 타당성을 증명하였다.
다중 서열 정렬 기법을 이용한 악성코드 패밀리 추천
악성코드 개발자들은 악성코드 탐지를 회피하기 위하여 변종 악성코드를 유포한다. 정적 분석기반의 안티 바이러스로는 변종 악성코드를 탐지하기 어려우며, 따라서 API 호출 정보 기반의 동적 분석이 필요하다. 본 논문에서는 악성코드 분석가의 변종 악성코드 패밀리 분류에 도움을 줄 수 있는 악성코드 패밀리 추천 기법을 제안하였다. 악성코드 패밀리의 API 호출 정보를 동적 분석을 통하여 추출하였다. 추출한 API 호출 정보에 다중 서열 정렬 기법을 적용하였다. 정렬 결과로부터 각 악성코드 패밀리의 시그니쳐를 추출하였다. 시그니쳐와의 유사도를 기준으로, 제안하는 기법이 새로운 악성코드의 패밀리 후보를 3개까지 추천하도록 하였다. 실험을 통하여 제안한 악성코드 패밀리 추천 기법의 정확도를 측정하였다.
쥐 해마의 유전자 발현 그리드 데이터를 이용한 특징기반 유전자 분류 및 영역 군집화
뇌의 유전자 발현 정보는 영역별 기능과 밀접한 관련이 있어 이를 분석하기 위해 다수의 유전자들 간의 발현 정도 및 발현 위치 정보와의 관계에 대한 연구가 이루어지고 있다. 본 논문에서는 컴퓨터 기술을 통해 알렌 뇌과학연구소에서 제공하는 약 2만여개의 쥐 뇌 유전자 발현 정보 중 뇌의 해마 영역을 중점적으로 분석하여 유전자들을 자동으로 분류해내고 발현 위치 정보를 기반으로 군집화하여 가시화하는 방법을 제안한다. 이를 통해 해마 내 전체적으로 발현되는 유전자들과 특정 영역에만 발현되는 유전자들을 분류할 수 있었고 그 중 특정 영역에 발현되는 유전자들의 위치정보 기반으로 군집화된 데이터를 뇌 지도와 함께 관찰 할 수 있었다. 본 연구는 뇌의 기능과 영역과의 관계성 관련 생물학적 연구를 위한 실험군 선정작업에 이용되어 실험설계시간을 줄일 수 있고 기존에 알려진 뇌의 해부학적 구조보다 더욱 세분화된 구조를 발견할 수 있는 가능성을 제시할 것으로 기대된다.
서브 밴드 CSP기반 FLD 및 PCA를 이용한 동작 상상 EEG 특징 추출 방법 연구
뇌-컴퓨터 인터페이스는 사용자의 뇌전도(Electroencephalogram: EEG)를 획득하여 생각만으로 기계를 제어하거나 신체장애를 가진 사람에게 손 또는 발과 같은 신체를 대신하여 의사 전달 수단으로 사용될 수 있다. 본 논문에서는 동작 상상 EEG를 분류하기 위해 Sub-Band Common Spatial Pattern (SBCSP)를 기반으로 필터 선택을 하지 않는 특징 추출 방법에 대해 연구한다. 4~40Hz의 동작 상상 신호를 4Hz 대역마다 나눈 9개의 서브 밴드에 각각 CSP를 적용한다. 이후 Fisher"s Linear Discriminant (FLD)를 사용하여 도출된 값들을 결합한 FLD 점수 벡터에 차원 축소를 위한 Principal Component Analysis(PCA)를 적용하여 클래스 구분을 위한 최적의 평면에 특징을 투영한다. 데이터베이스는 BCI CompetitionⅢ dataset Ⅳa(2 클래스: 오른손・다리)를 이용하며, 추출된 특징은 Least Squares Support Vector Machine(LS-SVM)의 입력으로 사용된다. 제안된 방법의 성능은 10×10 fold cross-validation을 이용하여 분류 정확도로 나타낸다. 본 논문에서 제안하는 방법은 피험자 ‘aa’, ‘al’, ‘av’, ‘aw’, ‘ay’에 대하여 각각 85.29±0.93%, 95.43±0.57%, 72.57±2.37%, 91.82±1.38%, 93.50±0.69%의 분류 정확도를 보였다.
영역 분할 사분 트라이에 블룸 필터 선 검색을 사용한 패킷 분류 알고리즘
영역분할을 이용한 패킷분류의 대표적인 알고리즘인 영역분할 사분 트라이(area-based quadtrie, AQT)는 검색 시 룰 노드를 만나도 더 높은 우선순위의 룰이 있을 수 있어 트라이의 끝까지 검색해야 하는 문제가 있다. 리프-푸싱(leaf-pushing) AQT는 모든 검색 경로에 룰 노드를 하나만 위치시켜 검색 성능을 높인 알고리즘이다. 본 논문에서는 리프-푸싱 AQT를 해시 테이블 기반으로 구현하고 블룸필터를 적용해 검색 성능을 더욱 향상시킨 알고리즘을 제안한다. 제안하는 알고리즘에서는 온-칩(on-chip) 블룸필터를 연쇄적으로 우선 검색하여 룰 노드의 레벨을 알아낸 후, 오프-칩(off-chip)에 저장된 룰 노드에 접근한다. 실험을 통해 적절한 크기의 블룸필터를 사용하여 평균 한 번의 해시테이블 접근만으로 패킷분류를 수행할 수 있음을 보았으며, 메모리 사용량 및 검색 성능에 있어 기존의 알고리즘과 제안하는 구조의 성능을 비교하였다.
버그 리포트를 이용한 버그 정정 시간 추정
버그 정정 활동은 소프트웨어 개발과 유지보수 작업에서 많은 비중을 차지하므로, 버그 정정활동에 소요되는 시간을 미리 추정할 수 있다면 소프트웨어 프로젝트 작업 계획에 큰 도움이 될 것이다. 따라서 본 연구에서는 버그 리포트를 이용하여 버그 정정 시간을 추정하는 방법을 제안한다. 본 방법에서는 먼저, 버그 리포트가 제공하는 버그 메타 필드에 k-NN 방법을 적용하여 과거 버그 리포트들을 분류한다. 다음으로, 버그 리포트의 텍스트 정보를 활용하여 과거 버그와 새로운 버그 사이의 유사도를 계산하고, 유사한 버그의 정정 시간을 활용하여 새로운 버그의 정정 시간을 추정한다. 마지막으로, 오픈 소스 프로젝트에 본 방법을 적용한 실험을 통하여 효과적으로 버그 정정 시간을 추정한다는 것을 보인다.
어휘 정보와 구문 패턴에 기반한 단일 클래스 분류 모델
관계 추출은 질의응답 및 지식확장 등에 널리 사용될 수 있는 주요 정보추출 기술이다. 정보추출에 관한 기존 연구들은 관계 범주가 수동으로 부착된 대용량의 학습 데이터를 필요로 하는 지도 학습모델을 기반으로 이루어져 왔다. 최근에는 학습 데이터 구축을 위한 인간의 노력을 줄이기 위해 원거리감독법이 제안되었다. 그러나 원거리 감독법은 분류 문제를 해결하는데 필수적인 부정 학습 데이터를 수집하기 어렵다는 단점이 있다. 이러한 원거리 감독법의 단점을 극복하기 위해 본 논문에서는 부정 데이터없이 학습이 가능한 단일 클래스 분류 모델을 제안한다. 입력 데이터로부터 긍정 데이터를 선별하기 위해서 제안 모델은 벡터 공간 상에서 어휘 정보와 구문 패턴에 기반한 유사도 척도를 사용하여 입력 데이터가 내부 범주에 속하는지 그렇지 않은지 판단한다. 실험에서 제안 모델은 대표적인 단일 클래스 분류 모델인 One-class SVM보다 높은 성능(0.6509 F1-점수, 0.6833 정밀도)을 보였다.
악성코드 분류를 위한 중요 연산부호 선택 및 그 유용성에 관한 연구
최근 새롭게 제작되는 악성코드 수의 증가와 악성코드 변종들의 다양성은 악성코드 분석가의 분석에 소요되는 시간과 노력에 많은 영향을 준다. 따라서 효과적인 악성코드 분류는 악성코드 분석가의 악성코드 분석에 소요되는 시간과 노력을 감소시키는 데 도움을 줄 뿐만 아니라, 악성코드 계보 연구 등 다양한 분야에 활용 가능하다. 본 논문에서는 악성코드 분류를 위해 중요 연산부호를 이용하는 방법을 제안한다. 중요 연산부호란 악성코드 분류에 높은 영향력을 가지는 연산부호들을 의미한다. 실험을 통해서 악성코드 분류에 높은 영향력을 가지는 상위 10개의 연산부호들을 중요 연산부호로 선정할 수 있음을 확인하였으며, 이를 이용할 경우 지도학습 알고리즘의 학습시간을 약 91% 단축시킬 수 있었다. 이는 향후 다량의 악성코드 분류 연구에 응용 가능할 것으로 기대된다.