디지털 라이브러리[ 검색결과 ]
상관관계 지표를 이용한 익명 데이터의 유용성 측정
http://doi.org/10.5626/JOK.2023.50.12.1163
인공지능 사회에 접어들면서 데이터 수집과 활용이 활발히 진행되고 있다. 이에 따라 원본 데이터를 프라이버시 가이드라인에 위반되지 않고 활용 가능한 익명 데이터로 변환하는 익명화 기술 및 프라이버시 모델이 떠오르고 있다. 현재 널리 사용되고 있는 프라이버시 모델에는 k-익명성, l-다양성, 그리고 t-근접성이 있으며, 데이터의 활용 목적, 상황, 그리고 프라이버시 정도에 따라 모델과 매개변수를 선정해야 한다. 이때 데이터의 유용성을 극대화하면서 프라이버시 조건을 만족하는 데이터를 만드는 것이 최상의 시나리오라고 볼 수 있다. 이 과정을 프라이버시 보존 데이터 배포(Privacy-Preserving Data Publishing, PPDP)라고 하며, 이러한 최상의 시나리오를 도출하기 위해서는 유용성 및 프라이버시 지표들을 참고해야 한다. 본 논문은 프라이버시 관리자가 효율적인 익명화 데이터를 만들 수 있도록 도울 수 있는 효과크기 평균비용(Effect Size Average Cost)이라는 새로운 유용성 지표를 제시한다. 이는 준식별자와 민감 속성간의 상관관계 변화에 대한 지표이다. 본 논문에서는 k-익명성, l-다양성, 그리고 t-근접성이 적용된 테이블들에 대해 이 지표를 계산 및 비교하는 실험을 진행하였고, 그 결과 각각의 효과크기 평균비용들에 유의미한 차이점을 찾을 수 있었다. 따라서 이 지표가 프라이버시 모델 선정에 대한 판단 근거로 충분히 활용될 수 있는 가능성을 보였다.