검색 : [ author: Kyuseok Shim ] (9)

희소 데이터를 위한 강인 손실 함수를 이용한 준 지도 학습

안영준, 심규석

http://doi.org/10.5626/JOK.2021.48.12.1343

이 논문에서는 데이터의 레이블이 매우 부족한 상황에서 데이터 증강기법과 강인 손실 함수를 사용하여 준 지도 학습을 하는 방법을 제안한다. 기존 데이터 증강기법을 사용하는 준 지도 학습 방법은 레이블이 없는 데이터를 증강하고, 그 중 신뢰도가 높은 데이터에 대해서만 현재 모델이 예측한 레이블을 원 핫 벡터로 붙여 학습에 사용한다. 그래서 신뢰도가 낮은 데이터는 사용하지 않는 문제가 있었는데, 이를 해결하기 위해 강인 손실 함수를 이용하여 신뢰도가 낮은 데이터 또한 사용하는 연구도 진행되었다. 한편, 레이블이 매우 적은 상황에서는 모델이 예측한 레이블은 신뢰도가 높더라도 부정확하다는 문제가 있다. 이 논문에서는 레이블이 매우 적은 상황에서 원 핫 벡터가 아닌 모델이 예측한 확률을 레이블로 사용함으로써 분류 모델의 성능을 높일 수 있는 방법을 제시한다. 또한 이미지 분류 문제에 대한 실험을 통하여 제시된 방법이 분류 모델의 성능을 향상시킴을 보여준다.

보로노이 다이어그램을 이용한 효율적 차분 프라이버시 K-평균 클러스터링 알고리즘

홍대영, 심규석

http://doi.org/10.5626/JOK.2020.47.9.879

최근 데이터에 대한 분석 결과로부터 개인 정보가 유출되는 것을 막기 위한 방법들이 연구되고 있다. 그중 차분 프라이버시(differential privacy)는 엄격하고 증명될 수 있는 개인 정보 보호를 보장하기 때문에 널리 연구되고 있는 개인 정보 보호의 표준이다. 본 논문에서는 2차원 데이터에 대하여 보로노이 다이어그램(Voronoi diagram)을 기반으로 차분 프라이버시를 보장하면서 K-평균 클러스터링 결과를 공개하기 위한 알고리즘을 제안한다. 기존 알고리즘은 클러스터링의 정확도와 수행 속도가 샘플 개수에 따라 변화하여 데이터에 적합한 샘플 개수를 선택하기 어렵다는 단점이 있으나 제안하는 알고리즘은 그러한 파라미터를 필요로 하지 않으면서 정확한 클러스터링 결과를 빠르게 계산할 수 있다. 제안하는 알고리즘의 성능에 대해 실생활 데이터를 이용한 실험을 통해 검증한다.

희소하고 긴 시계열 데이터의 동적 시간 워핑 거리 상계값 개선

서장혁, 정우환, 심규석

http://doi.org/10.5626/JOK.2019.46.6.570

시계열 데이터 분석에서 널리 이용되는 거리 측도 중 하나인 동적 시간 워핑(Dynamic Time Warping, DTW)은 시계열 데이터의 길이가 길어질수록 시간이 오래 걸리는 단점이 존재한다. 이를 극복하기 위해 최근에 런-길이 부호화라는 압축 방법을 이용하여 DTW를 빠른 시간 내에 근사하는 알고리즘들이 개발되었다. 하지만 기존의 방법들로 계산된 DTW의 상계값에는 불필요하게 더해지는 거리값이 존재한다. 본 논문은 시간복잡도를 유지하면서 런-길이 부호화를 통한 DTW 근사 알고리즘들을 개선하는 동적계획법(Dynamic programming) 기반의 알고리즘을 제시한다. 또한, 현실 세계의 데이터 및 인공 데이터를 활용한 실험을 통해 제안하는 방법의 효용성을 보인다.

쿼드 트리를 이용한 동적 공간 분할 기반 차분 프라이버시 k-평균 클러스터링 알고리즘

구한준, 정우환, 오성웅, 권수용, 심규석

http://doi.org/10.5626/JOK.2018.45.3.288

최근 공개되는 데이터에 적용하는 다양한 프라이버시 보호 기법들이 연구가 되어왔다. 그 중 차분 프라이버시는 본래의 데이터에 확률적인 노이즈를 더하여 공격자의 사전 지식에 상관없이 개인 정보를 보호한다. 기존 차분 프라이버시를 만족하는 k-평균 클러스터링은 데이터로부터 차분 프라이버시를 만족하는 히스토그램 형태로 바꾼 뒤. k-평균 클러스터링 알고리즘을 수행한다. 하지만 이는 데이터의 분포와 상관없이 등간격으로 히스토그램을 만들기 때문에 노이즈가 삽입되는 버킷이 많아지는 단점이 있다. 이를 해결하기 위해 본 논문에서는 데이터의 분포를 더 적은 버킷으로 나타낼 수 있는 쿼드 트리를 이용하여 히스토그램을 만든 뒤 k-평균을 찾는 알고리즘을 제안한다. 또한, 실험을 통해 기존의 알고리즘보다 더 좋은 성능을 가지는 것을 보인다.

문서 분류의 개선을 위한 단어-문자 혼합 신경망 모델

홍대영, 심규석

http://doi.org/10.5626/JOK.2017.44.12.1290

문서의 텍스트를 바탕으로 각 문서가 속한 분류를 찾아내는 문서 분류는 자연어 처리의 기본 분야 중 하나로 주제 분류, 감정 분류 등 다양한 분야에 이용될 수 있다. 문서를 분류하기 위한 신경망 모델은 크게 단어를 기본 단위로 다루는 단어 수준 모델과 문자를 기본 단위로 다루는 문자 수준 모델로 나누어진다. 본 논문에서는 문서를 분류하는 신경망 모델의 성능을 향상시키기 위하여 문자 수준과 단어 수준의 모델을 혼합한 신경망 모델을 제안한다. 제안하는 모델은 각 단어에 대하여 문자 수준의 신경망 모델로 인코딩한 정보와 단어들의 정보를 저장하고 있는 단어 임베딩 행렬의 정보를 결합하여 각 단어에 대한 특징 벡터를 만든다. 추출된 단어들에 대한 특징 벡터를 바탕으로, 주의(attention) 메커니즘을 이용한 순환 신경망을 단어 수준과 문장 수준에 각각 적용하는 계층적 신경망 구조를 통해 문서를 분류한다. 제안한 모델에 대하여 실생활 데이터를 바탕으로 한 실험으로 효용성을 검증한다.

아웃소싱 데이터베이스에서 집계 질의를 위한 효율적인 인증 기법

신종민, 심규석

http://doi.org/10.5626/JOK.2017.44.7.703

아웃소싱 데이터베이스란 데이터 관리 및 질의 처리 등의 계산량이 많은 작업을 제 3자 서버에 위탁하는 것이다. 이를 통해 데이터 소유자는 비싼 인프라를 구축하지 않고 빅데이터를 관리할 수 있으며 여러 사용자로부터 받는 질의들을 빠르게 처리할 수 있다. 하지만 보안 위협이 항상 존재하는 네트워크의 특성상 제 3자 서버를 완전히 신뢰하기 어렵고, 그 서버가 처리한 결과도 신뢰하기 어렵다. 이처럼 신뢰할 수 없는 서버가 처리한 질의 결과가 정확한지 확인하는 것을 질의 인증이라고 하며 구간 질의, kNN 질의, 함수 질의 등 다양한 질의에 대한 인증 기법들이 연구되었다. 하지만 빅데이터 분석에 있어 활용도가 높은 집계 질의에 대한 깊이 있는 질의 인증 연구는 이루어지지 않았으며 기존 연구는 고차원이 거나 서로 다른 값이 많은 데이터에 대해 비효율적이다. 본 연구에서는 집계 질의 인증을 위한 자료구조를 제안하고 이를 활용한 효율적인 증거 생성 방법과 증명 방법을 제안한다. 그리고 데이터의 상이 값 수, 레코드 개수, 차원 크기 등을 변경하며 진행한 실험 결과를 통해 제안한 기법의 성능이 우수함을 보였다.

네트워크 플로우의 연관성 모델을 이용한 트래픽 분류 방법

구영훈, 심규석, 이성호, Baraka D. Sija, 김명섭

http://doi.org/

오늘날의 네트워크는 고속화와 유비쿼터스 환경으로 인해 다양한 응용이 급속도로 생성되고 있으며 네트워크 트래픽도 매우 복잡해지고 있다. 이에 효율적인 네트워크 운용 및 관리를 위한 구체적인 단위의 트래픽 분류가 필수적이다. 다양한 트래픽 분류 방법이 연구되고 있는 가운데 아직 트래픽을 완벽하게 분류해내는 방법론은 개발되지 않은 실정이다. 이에 본 논문에서는 네트워크 플로우의 연관성 모델을 정의하고 이를 기반으로 트래픽을 분류하는 방법을 제안한다. 트래픽 분류를 위한 네트워크 플로우의 연관성 모델은 크게 유사성 모델과 연결성 모델로 이루어진다. 제안하는 방법론을 효과적으로 적용하기 위한 방안을 제시하며 실험을 통해 본 분류 방법론이 높은 정확도와 분석률의 방법론이라는 것을 증명한다.

질의응답 시스템에서 처음 보는 단어의 역문헌빈도 기반 단어 임베딩 기법

이우인, 송광호, 심규석

http://doi.org/

질의응답 시스템은 사용자의 질문에 대한 답을 찾아주는 시스템으로, 기존의 검색엔진이 사용자의 질의에 대해 관련된 문서의 링크만을 찾아주는 반면 질문에 대한 최종적인 답을 찾아준다는 차이점이 있다. 특정 분야에 국한되지 않고 다양한 질문을 처리해주는 오픈 도메인 질의응답 시스템에 필요한 연구들이 최근 자연어 처리, 인공지능, 데이터 마이닝 등 학계의 다양한 분야들에서 뜨거운 관심을 받고있다. 하지만 관련 연구에서는 학습 데이터에는 없었던 단어들이 질문에 대한 정확한 답과 유사한 오답을 구별해내는데 결정적인 역할을 할 수 있음에도, 이러한 처음 보는 단어들을 모두 단일 토큰으로 치환해버리는 문제가 있다. 본 논문에서는 문맥 정보를 통해 이러한 모르는 단어에 대한 벡터를 계산하는 방법을 제안한다. 그리고 역문헌빈도 가중치를 활용하여 문맥정보를 더 효율적으로 처리하는 모델을 제안한다. 또한 풍부한 실험을 통해 질의응답 시스템의 모델 학습 속도 및 정확성이 기존 연구에 비해 향상됨을 확인하였다.

그리디 알고리즘을 이용한 맵리듀스 세타조인 M-Bucket-I 휴리스틱의 개선

김우열, 심규석

http://doi.org/

세타조인은 데이터베이스에 있어서 가장 기본적이면서도 중요한 질의 중 하나이다. 최근 처리해야 하는 데이터의 양이 증가함에 따라, 맵리듀스와 같은 분산 병렬 처리 프레임워크를 사용한 데이터베이스의 질의처리가 많이 연구되고 있다. 대표적인 연구로 M-Bucket-I 휴리스틱을 이용한 세타조인이 있으나, 이 알고리즘은 수행시간이 입력 데이터의 크기를 n이라 할 때, 각 레코드를 rmax개의 리듀서 중 어느 리듀서로 보낼지 정하는 리듀서맵핑을 구하는데 O(n) 의 시간이 걸려 쉽게 사용할 수 없다는 문제가 있다. 본 논문에서는 기존의 M-Bucket-I 휴리스틱을 개선하여, 같은 리듀서 매핑 결과를 내놓더라도 수행시간이 O(r maxlogn으로 보다 짧은 새로운 알고리즘을 제시한다. 다양한 실험을 통하여 기존의 맵리듀스를 이용한 세타조인보다 성능을 10% 정도 향상시킬 수 있음을 보였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr