디지털 라이브러리[ 검색결과 ]
밀도 기반 군집화 결과 공개를 위한 차분 프라이버시 기법
http://doi.org/10.5626/JOK.2024.51.4.380
군집화 기술은 비슷한 특성을 갖는 데이터들을 그룹화한다. 그 중 밀도 기반 공간 군집분석(DBSCAN)은 이상치(outlier)을 탐지할 수 있고 데이터 분포에 영향을 받지 않는 군집화 기술로 다양한 분야에서 널리 사용되고 있다. 하지만 기존의 DBSCAN 기법은 원본 데이터에 민감한 개인 정보들이 포함되어 있을 경우 군집화 수행 결과에서도 이러한 정보가 쉽게 유출된다는 점에서 취약하다. 따라서 프라이버시 보호조치 없이 이들 데이터를 공개 및 배포하는 것은 위험하다. 본 논문은 DBSCAN 결과를 차분 프라이버시를 만족하도록 가공 후 공개하는 방법을 제안한다. 또한, 후처리를 통해 차분 프라이버시를 적용하는 과정에서 발생하는 노이즈를 제거하여 향후 데이터 분석에 유용하도록 가공한다. 실험을 통해 제안 기법이 차분 프라이버시를 만족하면서 군집화의 특징은 남긴 채 불필요한 노이즈를 제거하여 결과의 유용성을 높인 것을 확인하였다.
차분 프라이버시를 보장하는 프라이버시 보호 히스토그램 생성 기법
http://doi.org/10.5626/JOK.2022.49.6.488
데이터 수집과 분석이 활발히 이루어지면서 개인의 프라이버시 보호의 필요성이 대두되고 있다. 프라이버시를 보호하면서 데이터의 수집과 분석을 수행하기 위해 다양한 프라이버시 모델이 제안되었다. 그 중 차분 프라이버시가 사실상의 표준으로 받아들여지고 있다. 본 논문에선 차분 프라이버시를 보장하는 프라이버시 보호 히스토그램 생성 기법을 제안한다. 제안 기법은 히스토그램의 계급 구간 설정 단계와 도수 산출 단계로 구성된다. 첫번째 단계에서는 계급 구간을 결정하는 휴리스틱 알고리즘에 라플라스 메커니즘을 적용하여 차분 프라이버시를 만족하는 계급 구간 개수를 설정한다. 두번째 단계에서는 각 계급 구간에 해당하는 도수에 라플라스 메커니즘을 적용하여 차분 프라이버시를 보장하는 도수를 산출한다. 제안하는 기법이 차분 프라이버시를 보장함을 보이고, 실험을 통해 프라이버시 예산 값의 크기와 분배 비율에 따른 히스토그램의 정확성을 비교한다.
지역 차분 프라이버시를 만족하는 시계열 위치 데이터 수집 및 분석
http://doi.org/10.5626/JOK.2022.49.4.305
위치 데이터를 생성할 수 있는 스마트 기기의 보급에 따라 위치 기반 서비스가 폭발적으로 증가하고 있다. 사용자의 위치 데이터는 민감한 정보이기 때문에 원본을 그대로 이용한다면 개인의 프라이버시가 침해될 수 있다. 본 논문은 데이터 수집 환경에서 사용할 수 있는 강력한 프라이버시 모델인 지역 차분 프라이버시를 만족하는 시계열 위치 데이터 수집 방법과 시계열 위치 데이터의 특성을 고려한 분석방법을 제안한다. 데이터 수집 과정에서 개인의 위치는 비트 배열로 표현한다. 이후, 각 배열의 비트는 프라이버시 보호를 위해 확률 기반 응답을 이용하여 변조한다. 데이터 분석 과정에서는 은닉 마르코프 모델을 이용하여 위치 빈도 분석을 진행한다. 또한 기존 분석 기법에서 불가능한 시공간 상관관계 분석을 추가로 수행한다. 제안 기법의 성능을 보이기 위하여 서울시 지하철을 기반으로 가상의 경로 데이터를 생성하고, 제안하는 기법의 결과를 분석한다.
가명정보 결합 활성화를 위한 차분 프라이버시 기반 프라이버시 보호 결합률 사전 계산
http://doi.org/10.5626/JOK.2022.49.3.250
데이터 3법이 시행되면서 다양한 분야의 가명정보를 지정된 전문기관을 통해 결합하여 활용할 수 있게 되었다. 전체 데이터를 결합하기 전에 전문기관은 두 가명정보 간의 결합률을 사전에 확인할 수 있는 서비스를 제공하고 있다. 하지만 기존의 결합률 사전 계산 방식은 프라이버시 침해가 발생할 수 있는 취약점을 가지고 있다. 본 논문은 전문기관이 제공하는 임의의 일회성 키값을 사용하여 결합 의뢰기관들이 단방향 해시 기법을 통해 데이터를 익명 처리 후 전문기관에 전달하는 방법과 전문기관에서 결합률 사전 계산 시 차분 프라이버시를 보장하는 프라이버시 보호 결합률 계산 방법을 제안한다. 제안하는 방법은 결합 의뢰기관이 전문기관에 제공하는 데이터의 익명성을 보장하며, 기존의 결합률 사전 계산 방법에서 발생할 수 있는 프라이버시 침해를 방지한다. 실험을 통해 제안 기법이 차분 프라이버시를 만족하면서도 유용한 결합률을 산출함을 확인하였다.
Rényi 차분 프라이버시를 적용한 WGAN 모델 연구
http://doi.org/10.5626/JOK.2021.48.1.128
다양한 서비스를 이용함으로써 개인정보는 수집되며, 관리자는 수집된 데이터들로부터 가치를 추출하고 결과를 분석하여 개개인의 맞춤형 정보를 제공한다. 하지만 의료 데이터와 같은 민감한 데이터는 프라이버시 침해문제가 있으며, 이에 재현 데이터 생성 모델로 GAN이 많이 사용되고 있다. 그러나 GAN은 원본 데이터의 민감한 정보까지 학습하므로 프라이버시 취약점이 존재한다. 따라서 GAN의 프라이버시 보호를 위해 많은 연구가 수행되었다. 특히 강력한 프라이버시 보호 모델인 차분 프라이버시를 적용한 연구가 진행되었지만, 데이터의 유용성 측면에서 실제 환경에 적용하기에는 부족하다. 본 논문에서는 프라이버시와 유용성을 보장하는 Rényi 차분 프라이버시를 적용한 GAN 모델을 연구한다. 특히 WGAN 및 WGAN-GP을 기반으로 프라이버시를 보존하지 않은 기존의 모델, 차분 프라이버시를 적용한 모델, 그리고 Rényi 차분 프라이버시를 적용한 모델들을 통해 생성된 재현 데이터를 비교 분석한다.
보로노이 다이어그램을 이용한 효율적 차분 프라이버시 K-평균 클러스터링 알고리즘
http://doi.org/10.5626/JOK.2020.47.9.879
최근 데이터에 대한 분석 결과로부터 개인 정보가 유출되는 것을 막기 위한 방법들이 연구되고 있다. 그중 차분 프라이버시(differential privacy)는 엄격하고 증명될 수 있는 개인 정보 보호를 보장하기 때문에 널리 연구되고 있는 개인 정보 보호의 표준이다. 본 논문에서는 2차원 데이터에 대하여 보로노이 다이어그램(Voronoi diagram)을 기반으로 차분 프라이버시를 보장하면서 K-평균 클러스터링 결과를 공개하기 위한 알고리즘을 제안한다. 기존 알고리즘은 클러스터링의 정확도와 수행 속도가 샘플 개수에 따라 변화하여 데이터에 적합한 샘플 개수를 선택하기 어렵다는 단점이 있으나 제안하는 알고리즘은 그러한 파라미터를 필요로 하지 않으면서 정확한 클러스터링 결과를 빠르게 계산할 수 있다. 제안하는 알고리즘의 성능에 대해 실생활 데이터를 이용한 실험을 통해 검증한다.
도로 교통망에서 로컬 차분 프라이버시를 적용한 사용자의 민감한 부분경로 보호 기법
http://doi.org/10.5626/JOK.2020.47.7.693
오늘날 스마트폰의 보급과 센서 기술의 발달에 따라 모바일 기기로부터 수집된 사용자 위치데이터의 나열인 경로 데이터가 마케팅이나 효율적인 알고리즘 개발에 활용되고 있다. 그러나 이와 같은 위치정보의 무분별한 수집은 사용자 개인의 프라이버시 침해 문제를 야기할 수 있다. 이를 해결하기 위해 위치 정보에 차분 프라이버시를 적용하기 위한 많은 기법이 나왔으나, 경로 정보의 경우 이 방법들을 그대로 적용한다면 유용성이 매우 하락한다는 단점이 있다. 또한, 차분 프라이버시 기법은 큐레이터 모델과 로컬 모델로 나뉘는데, 로컬 모델은 신뢰할 수 있는 서버를 두지 않아도 된다는 장점이 있어 안전하지만 더 많은 노이즈가 삽입되어 데이터 유용성을 더욱 하락시킨다. 본 논문은 로컬 모델에서의 도로교통망 경로 데이터 수집 시 차분 프라이버시를 적용할 때, 데이터 유용성 하락 문제를 해결하기 위해 정점들을 집중점(Heavy point)과 경점(Light point)로 구분하고, 차등적으로 차분 프라이버시 기법을 적용하는 방법을 제안한다. 또한, 실험을 통해 제안 기법이 민감한 데이터는 차분 프라이버시 기준에 맞춰 보호하면서도 전체적인 데이터 유용성 하락을 완화하였음을 보인다.
지역 차분 프라이버시 기반 허브 그룹화를 이용한 비동률성 네트워크 배포
http://doi.org/10.5626/JOK.2020.47.6.603
무선 인터넷의 발전과 스마트폰의 대중화에 따라 많은 사람들이 온라인을 통해 사람들과의 관계를 맺는 소셜 네트워크 서비스를 사용하고 있다. 소셜 네트워크 서비스에서 발생하는 개인 데이터는 높은 가치를 지니고 있지만 동시에 민감한 개인정보를 담고 있어 프라이버시 침해가 발생할 가능성이 있다. 개인정보침해를 방지함과 동시에 소셜 네트워크 상의 데이터를 분석하기 위하여 기존 연구는 원본 네트워크 데이터와 유사한 가상 데이터를 생성하거나, 사용자 정보를 익명화하여 배포하는 기법을 제시하였다. 그러나 기존 기법들은 소셜 네트워크 상의 사용자들이 맺는 관계에 의해 형성되는 그래프의 특성을 고려하지 않아 프라이버시와 데이터 유용성 모두에서 약점을 지니고 있다. 본 논문에서는 소셜 네트워크의 그래프 상의 특성을 반영함과 동시에 신뢰할 수 있는 써드파티가 아닌 데이터를 제공하는 개인 수준에서 직접 데이터 보호 기법을 적용하여 제공하는, 프라이버시가 보호된 소셜 네트워크 데이터 배포 기법을 제안한다. 우리는 실제 네트워크 데이터를 사용한 실험을 통하여 제안 기법이 기존의 차분 프라이버시를 적용한 기법들보다 성능이 향상됨을 보였다.
데이터 마켓 환경에서, 차분 프라이버시 적용을 위한 데이터 프라이버시-가격 협상 기법
http://doi.org/10.5626/JOK.2019.46.4.376
오늘날 디지털 데이터가 개인이나 조직이 효과적인 의사 결정을 내리기 위해 필수 불가결한 자원으로 여겨짐에 따라 데이터 소유자와 사용자가 데이터를 거래할 수 있는 디지털 마켓이 데이터 확보 수단으로써 주목 받고 있다. 그러나 디지털 데이터, 특히 개인 데이터의 수집은 의도치 않은 프라이버시 침해를 야기할 수 있으며 이는 개인의 데이터 제공 의지를 저해하는 중요한 요인이다. 본 논문은 데이터 마켓 환경에서의 프라이버시 보호를 위해 차분 프라이버시 기술을 적용할 때, 데이터 판매자와 구매자 모두가 만족할 수 있는 가격과 노이즈 패러미터 ε값을 설정할 수 있는 협상 기법을 제안한다. 이를 위하여 우리는 데이터 소유자와 사용자간의 중개를 수행하는 마켓 관리자가 존재하는 데이터 마켓 프레임워크와, 매칭 이론과 루빈스타인 바게닝을 통해 2단계로 데이터의 가격과 노이즈 패러미터 ε값을 결정하는 기법을 제안하였다. 제안 기법은 협상을 통해 불공평한 거래를 방지하고, 데이터 소유자와 사용자 중 어느 한 쪽에 치우침 없이 적정 수준의 ε값과 단위 가격을 결정할 수 있음을 보였다.
도로 교통망에서 차분 프라이버시가 적용된 교통량 데이터 배포를 위한 가변 길이 윈도우 기반 프라이버시 예산 할당 기법
http://doi.org/10.5626/JOK.2018.45.9.957
오늘날 교통량 데이터는 도로 설계 및 교통 흐름 분석 등의 많은 분야에서 활용되고 있다. 이러한 교통량 데이터는 민감한 개인의 위치 정보를 포함하고 있어, 개인의 이동 경로 노출과 같은 프라이버시 침해를 야기할 수 있다. 차분 프라이버시를 교통량 데이터에 적용할 경우 민감한 개인 정보를 보호하면서도 데이터의 유용성을 조절할 수 있다는 장점이 있으나 교통량 데이터는 시간의 흐름에 따라 무한대의 크기를 가지므로 모든 데이터를 보호하려면 과도한 노이즈가 삽입된다는 단점이 있다. 이를 극복하기 위해 일정 시간 범위에 포함되는 교통량 데이터에 대해서만 차분 프라이버시를 적용하는 연구가 진행되었으나 기존 연구들에서는 윈도우의 길이가 고정되어 있어 시간대의 특수성이 고려되지 않고 도로 구간의 상관 관계를 고려하지 않는 한계가 있었다. 본 논문에서는 위와 같은 문제를 해결하기 위해, 도로 구간 간의 상관 관계와 시간대를 고려한 가변 길이 윈도우 기법을 제안한다.