디지털 라이브러리[ 검색결과 ]
격자 탐색을 통한 확장 학습 블룸 필터의 거짓 양성 비율 개선
http://doi.org/10.5626/JOK.2022.49.1.78
블룸 필터는 집합을 표현하는 자료구조로 데이터의 포함 여부에 대해서 반환하는 역할을 수행한다. 단, 공간을 적게 사용하는 대가로 거짓 양성을 반환하는 경우가 존재한다. 학습 블룸 필터는 기존의 블룸 필터에 추가적으로 기계학습 모델을 전처리 과정에 사용하여 거짓 양성 비율을 개선하는 방법이다. 즉, 학습 블룸 필터는 기계학습 모델로 일부의 데이터를 저장하고, 모델이 저장하지 못하는 데이터는 보조 필터에 저장한다. 보조 필터는 블룸 필터를 그대로 사용하는 방법도 존재하지만, 본 논문에서의 보조 필터는 블룸 필터와 학습 해시 함수를 같이 사용하는 학습 블룸 필터에 대해서 살펴보고 이를 확장 학습 블룸 필터라고 부른다. 학습 해시 함수는 전처리 과정에서 사용하던 기계학습 모델의 출력값을 해시 함수로 사용하는 방법이다. 본 논문에서는 격자 탐색을 통해서 확장 학습 블룸 필터의 거짓 양성 비율을 개선하는 방법을 제안한다. 이는 학습 해시 함수의 비율을 나타내는 초매게변수의 값을 늘려나가며 가장 낮은 거짓 양성 비율을 가지는 확장 학습 블룸 필터를 탐색하는 방법이다. 결과적으로, 100,000개 이상의 데이터를 저장해야하는 실험 환경에서는 격자 탐색을 통해서 선택된 확장 학습 블룸 필터가 기존의 학습 블룸 필터 보다 20% 개선된 거짓 양성 비율을 가질 수 있음을 실험적으로 보인다. 추가적으로, 학습 해시 함수에 사용되는 인공신경망 모델의 출력값이 32비트 부동소수점인 경우에 거짓 음성 오류 문제가 발생할 수 있음을 보이고, 이를 64비트 부동소수점으로 변경하면 해결됨을 보인다. 마지막으로, 10,000개의 데이터를 질의하는 실험 환경에서 인공신경망 모델의 구조를 조정하여 20KB의 공간을 절약하고 동일한 거짓 양성 비율을 갖는 확장 학습 블룸 필터를 만들 수 있음을 보인다. 단, 20KB의 공간을 절약하는 대가로 질의 시간이 2% 늘어난 것을 실험적으로 보인다.
Opt Tree: Optane DCPM 내부 버퍼를 활용한 쓰기 최적화 트리
http://doi.org/10.5626/JOK.2021.48.7.742
최근 상용화된 비휘발성 메모리인 Intel사의 Optane DC Persistent Memory는 캐시 라인 단위 또는 워드 단위의 메모리 접근 명령을 256바이트 단위로 처리하는 내부 버퍼가 존재한다. 본 논문에서는 Optane DCPM의 내부 버퍼를 활용하는 인덱스인 Opt Tree를 제안한다. Opt Tree는 트리의 노드를 256 바이트 단위의 여러 작은 블록으로 나누어 노드 내의 데이터들을 분할 저장하며, 노드 접근 시에는 2개의 블록만을 접근하는 삽입 및 탐색 알고리즘을 가진다. Opt Tree는 Optane DCPM의 내부 버퍼에 친화적인 디자인과 알고리즘을 바탕으로 기존의 비휘발성 메모리를 위한 인덱스들보다 더 나은 삽입 성능을 보여준다.
데이터 분포 관찰을 통한 공간 효율적인 Top-k Query 인코딩
http://doi.org/10.5626/JOK.2020.47.3.235
본 논문에서는 주어진 범위에서 인코딩된 데이터로 이차원 원본 배열에 대한 접근 없이 상위 k개의 원소의 위치를 찾는 질의에 답을 하는 문제를 다룬다. 본 논문에서는 데이터 분포 관찰을 통해 일반적인 이차원 배열에 대해서 이전 연구들보다 더 효율적인 Top-k 질의 인코딩 방법을 제안하고 실험 결과를 통해 공간 효율성이 향상됨을 보인다. 또한 데이터로부터 학습한 자료구조 연구를 간결한 자료구조에 활용할 방법을 제시한다.
아웃소싱 데이터베이스에서 집계 질의를 위한 효율적인 인증 기법
http://doi.org/10.5626/JOK.2017.44.7.703
아웃소싱 데이터베이스란 데이터 관리 및 질의 처리 등의 계산량이 많은 작업을 제 3자 서버에 위탁하는 것이다. 이를 통해 데이터 소유자는 비싼 인프라를 구축하지 않고 빅데이터를 관리할 수 있으며 여러 사용자로부터 받는 질의들을 빠르게 처리할 수 있다. 하지만 보안 위협이 항상 존재하는 네트워크의 특성상 제 3자 서버를 완전히 신뢰하기 어렵고, 그 서버가 처리한 결과도 신뢰하기 어렵다. 이처럼 신뢰할 수 없는 서버가 처리한 질의 결과가 정확한지 확인하는 것을 질의 인증이라고 하며 구간 질의, kNN 질의, 함수 질의 등 다양한 질의에 대한 인증 기법들이 연구되었다. 하지만 빅데이터 분석에 있어 활용도가 높은 집계 질의에 대한 깊이 있는 질의 인증 연구는 이루어지지 않았으며 기존 연구는 고차원이 거나 서로 다른 값이 많은 데이터에 대해 비효율적이다. 본 연구에서는 집계 질의 인증을 위한 자료구조를 제안하고 이를 활용한 효율적인 증거 생성 방법과 증명 방법을 제안한다. 그리고 데이터의 상이 값 수, 레코드 개수, 차원 크기 등을 변경하며 진행한 실험 결과를 통해 제안한 기법의 성능이 우수함을 보였다.