디지털 라이브러리[ 검색결과 ]
상관관계 지표를 이용한 익명 데이터의 유용성 측정
http://doi.org/10.5626/JOK.2023.50.12.1163
인공지능 사회에 접어들면서 데이터 수집과 활용이 활발히 진행되고 있다. 이에 따라 원본 데이터를 프라이버시 가이드라인에 위반되지 않고 활용 가능한 익명 데이터로 변환하는 익명화 기술 및 프라이버시 모델이 떠오르고 있다. 현재 널리 사용되고 있는 프라이버시 모델에는 k-익명성, l-다양성, 그리고 t-근접성이 있으며, 데이터의 활용 목적, 상황, 그리고 프라이버시 정도에 따라 모델과 매개변수를 선정해야 한다. 이때 데이터의 유용성을 극대화하면서 프라이버시 조건을 만족하는 데이터를 만드는 것이 최상의 시나리오라고 볼 수 있다. 이 과정을 프라이버시 보존 데이터 배포(Privacy-Preserving Data Publishing, PPDP)라고 하며, 이러한 최상의 시나리오를 도출하기 위해서는 유용성 및 프라이버시 지표들을 참고해야 한다. 본 논문은 프라이버시 관리자가 효율적인 익명화 데이터를 만들 수 있도록 도울 수 있는 효과크기 평균비용(Effect Size Average Cost)이라는 새로운 유용성 지표를 제시한다. 이는 준식별자와 민감 속성간의 상관관계 변화에 대한 지표이다. 본 논문에서는 k-익명성, l-다양성, 그리고 t-근접성이 적용된 테이블들에 대해 이 지표를 계산 및 비교하는 실험을 진행하였고, 그 결과 각각의 효과크기 평균비용들에 유의미한 차이점을 찾을 수 있었다. 따라서 이 지표가 프라이버시 모델 선정에 대한 판단 근거로 충분히 활용될 수 있는 가능성을 보였다.
프라이버시 보호 데이터 배포를 위한 모델 조사
최근 다양한 분야에서 데이터들이 활발하게 활용되고 있다. 이에 따라 데이터의 공유나 배포를 요구하는 목소리가 높아지고 있다. 그러나 공유된 데이터에 개인과 관련된 민감한 정보가 있을 경우, 개인의 민감한 정보가 드러나는 프라이버시 유출이 발생할 수 있다. 개인 정보가 포함된 데이터를 배포하기 위해 개인의 프라이버시를 보호하면서 데이터를 최소한으로 변형하는 프라이버시 보호 데이터 배포(privacy-preserving data publishing, PPDP)가 연구되어 왔다. 프라이버시 보호 데이터 배포 연구는 다양한 공격자 모델을 가정하고 이러한 공격자의 프라이버시 유출 공격으로부터 프라이버시를 보호하기 위한 원칙인 프라이버시 모델에 따라 발전해왔다. 본 논문에서는 먼저 프라이버시 유출 공격에 대해 알아본다. 그리고 프라이버시 모델들을 프라이버시 유출 공격에 따라 분류하고 각 프라이버시 모델들 간의 차이점과 요구 조건에 대해 알아본다.