검색 : [ author: 홍용기 ] (2)

상관관계 지표를 이용한 익명 데이터의 유용성 측정

홍용기, 고기혁, 양희동, 류찬호, 류승환

http://doi.org/10.5626/JOK.2023.50.12.1163

인공지능 사회에 접어들면서 데이터 수집과 활용이 활발히 진행되고 있다. 이에 따라 원본 데이터를 프라이버시 가이드라인에 위반되지 않고 활용 가능한 익명 데이터로 변환하는 익명화 기술 및 프라이버시 모델이 떠오르고 있다. 현재 널리 사용되고 있는 프라이버시 모델에는 k-익명성, l-다양성, 그리고 t-근접성이 있으며, 데이터의 활용 목적, 상황, 그리고 프라이버시 정도에 따라 모델과 매개변수를 선정해야 한다. 이때 데이터의 유용성을 극대화하면서 프라이버시 조건을 만족하는 데이터를 만드는 것이 최상의 시나리오라고 볼 수 있다. 이 과정을 프라이버시 보존 데이터 배포(Privacy-Preserving Data Publishing, PPDP)라고 하며, 이러한 최상의 시나리오를 도출하기 위해서는 유용성 및 프라이버시 지표들을 참고해야 한다. 본 논문은 프라이버시 관리자가 효율적인 익명화 데이터를 만들 수 있도록 도울 수 있는 효과크기 평균비용(Effect Size Average Cost)이라는 새로운 유용성 지표를 제시한다. 이는 준식별자와 민감 속성간의 상관관계 변화에 대한 지표이다. 본 논문에서는 k-익명성, l-다양성, 그리고 t-근접성이 적용된 테이블들에 대해 이 지표를 계산 및 비교하는 실험을 진행하였고, 그 결과 각각의 효과크기 평균비용들에 유의미한 차이점을 찾을 수 있었다. 따라서 이 지표가 프라이버시 모델 선정에 대한 판단 근거로 충분히 활용될 수 있는 가능성을 보였다.

프라이버시 보호 데이터 배포: 정형 및 비정형 데이터 비식별화 기술 동향

홍용기, 고기혁, 양희동, 류승환

http://doi.org/10.5626/JOK.2023.50.11.1008

인공지능 시대에 접어들면서 인공지능 개발을 위한 데이터의 수요가 늘어나고 있고, 이에 따라 데이터 공유와 배포가 활발히 이루어지고 있다. 그러나 배포된 데이터 활용시 개인정보 유출의 위험이 있기 때문에 데이터를 배포하기 전에 비식별화 과정이 필요하다. 이러한 비식별화 과정에서 지정된 프라이버시 가이드라인을 준수하면서 동시에 데이터의 유용성을 최대한으로 유지하는 일련의 과정인 프라이버시 보호 데이터 배포(Privacy-Preserving Data Publishing, PPDP)가 꾸준히 연구되어 왔다. 2000년대 초반 부터 정형 데이터(예: 표 혹은 관계형 데이터)를 비식별화 하는 기술들이 연구되어 왔으며, 수집된 데이터의 상당 부분이 비정형 데이터이고 그 비율이 늘어나고 있는 현재 비정형 데이터의 비식별화 연구 또한 활발히 이루어지고 있다. 본 논문에서는 기존 정형 데이터의 비식별화 기법들을 소개한 후에 비정형 데이터 비식별화 기법들의 최근 동향에 대해서 서술한다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr