디지털 라이브러리[ 검색결과 ]
주성분 분석의 안전한 다자간 계산
최근 대용량 데이터 대상의 프라이버시 보호 데이터 마이닝(privacy-preserving data mining : PPDM)이 활발히 연구되고 있다. 본 논문에서는 민감한 데이터 집합의 상관관계를 파악하는데 널리 사용되는 주성분 분석 기반의 PPDM을 다룬다. 일반적으로 주성분 분석은 모든 데이터를 한 곳에 모아 처리해야 하므로 민감한 데이터가 서로에게 공개되고, 상당한 계산량을 요구하며, 또한 데이터를 모으는 과정에서 많은 통신 오버헤드가 발생한다. 이러한 문제를 해결하기 위하여 본 논문은 데이터를 한 곳에 모으지 않고도 주성분 분석을 안전하게 계산하는 효율적인 방법을 제안한다. 제안하는 방법은 노드들 간에 한정된 정보만을 공유하면서도 원래의 주성분 분석 결과와 동일한 결과를 얻을 수 있다. 또한 안전한 주성분 분석에 저차원 변환을 적용하여 안전한 유사 문서 검색에 사용한다. 마지막으로 다양한 실험을 통해 제안한 방법이 대용량의 다차원 데이터에서 효율적으로 동작함을 확인한다.
대용량 데이터베이스에서 다차원 인덱스를 사용한 효율적인 다단계 k-NN 검색
본 논문에서는 다차원 인덱스 기반 다단계 k-NN 검색의 성능 향상 문제를 다룬다. 기존 다단계 k-NN 검색에서는 고차원 객체의 저차원 변환으로 인한 정보 손실로 k-NN 질의 결과 매우 큰 허용치(검색 범위)가 결정되어 범위 질의 결과로 많은 후보가 검색된다. 또한, 많은 후보는 후처리 과정에서 매우 많은 I/O 및 CPU 오버헤드를 발생시킨다. 본 논문에서는 이와 같은 고찰에 기반하여 범위 질의의 허용치를 줄여 후보 개수를 줄이고 이를 통해 성능을 향상시키는 방법을 제안한다. 먼저, k-NN 질의 결과로 결정된 허용치를 고차원 및 저차원 객체간 거리 비율로 강제 축소하여 범위 질의에 사용하는 허용치 축소 (근사적) 해결책을 제안한다. 다음으로, k-NN 질의 계수 k 대신 c?k 를 사용하여 얻은 보다 타이트 (tight)한 허용치로 범위 질의를 수행하는 계수 제어 (정확한) 해결책을 제안한다. 실제 객체 데이터를 사용하여 실험한 결과, 제안한 두 가지 해결책은 기존 다단계 k-NN 검색에 비해 후보 개수와 검색 시간 모두를 크게 향상시킨 것으로 나타났다.