검색 : [ keyword: 프라이버시 ] (27)

Re-Identification에서의 대조 연합 학습 시스템

김성윤, 정우진, 조성우, 양용진, 황신혁, 윤세영

http://doi.org/10.5626/JOK.2024.51.9.841

방대한 데이터 수집과 컴퓨팅 파워의 발전으로 AI 기술이 다양한 서비스에 활발히 적용되고 있다. 전통적인 중앙 집중형 클라우드 데이터 처리 방식은 민감한 사용자 데이터의 노출에 대한 우려를 불 러일으킨다. 이러한 문제를 해결하기 위해 연합 학습(FL)이 분산형 학습 방법으로 부상했다. FL은 클라이 언트가 로컬 데이터로 모델을 학습한 후, 로컬에서 업데이트된 모델을 중앙 서버로 보내는 방식이다. 중앙 서버는 이러한 업데이트된 모델을 집계하여 로컬 데이터를 직접 접근하지 않고도 글로벌 모델을 학습할 수 있게 한다. 본 논문에서는 다양한 도메인에서 재식별(Re-ID) 작업을 위해 특별히 설계된 새로운 FL 프레임워크인 FedCON을 제시한다. FedCON은 FL에 대조 학습을 적용하여 특징 표현을 향상시키며, 이 는 Re-ID 분야에서 특징 벡터의 유사성을 강조하여 동일한 ID를 가진 객체를 다른 이미지에서도 동일하 게 식별하는 데 유용하다. 특징 유사성에 중점을 둠으로써 FedCON은 데이터 이질성 문제를 효과적으로 해결하고 Re-ID 응용에서 글로벌 모델의 성능을 향상시킨다. 인물 및 차량 Re-ID 데이터셋에 대한 실증 연구는 FedCON이 기존의 Re-ID를 위한 FL 방법들을 능가함을 보여준다. 다양한 CCTV 데이터셋을 사 용한 인물 Re-ID 실험에서 FedCON은 여러 baseline과의 비교에서 우수한 성능을 보였다. 또한, FedCON은 VeRi-776 및 VRIC와 같은 실제 데이터셋에서 차량 Re-ID 성능을 크게 향상시켜 실제 응용 가능성을 보여준다.

밀도 기반 군집화 결과 공개를 위한 차분 프라이버시 기법

김남일, 백인철, 이협진, 김민수, 정연돈

http://doi.org/10.5626/JOK.2024.51.4.380

군집화 기술은 비슷한 특성을 갖는 데이터들을 그룹화한다. 그 중 밀도 기반 공간 군집분석(DBSCAN)은 이상치(outlier)을 탐지할 수 있고 데이터 분포에 영향을 받지 않는 군집화 기술로 다양한 분야에서 널리 사용되고 있다. 하지만 기존의 DBSCAN 기법은 원본 데이터에 민감한 개인 정보들이 포함되어 있을 경우 군집화 수행 결과에서도 이러한 정보가 쉽게 유출된다는 점에서 취약하다. 따라서 프라이버시 보호조치 없이 이들 데이터를 공개 및 배포하는 것은 위험하다. 본 논문은 DBSCAN 결과를 차분 프라이버시를 만족하도록 가공 후 공개하는 방법을 제안한다. 또한, 후처리를 통해 차분 프라이버시를 적용하는 과정에서 발생하는 노이즈를 제거하여 향후 데이터 분석에 유용하도록 가공한다. 실험을 통해 제안 기법이 차분 프라이버시를 만족하면서 군집화의 특징은 남긴 채 불필요한 노이즈를 제거하여 결과의 유용성을 높인 것을 확인하였다.

프라이버시 보장형 연관성 분석을 위한 동형암호 기반 지지도 계산

박윤수, 숙쿤리닌, 이문규

http://doi.org/10.5626/JOK.2024.51.3.203

동형암호는 암호문에 대해 복호화 과정 없이 연산을 수행할 수 있는 암호 기술로 머신 러닝, 클라우드 서비스 등에서 사용자의 프라이버시 침해 문제를 해결할 수 있는 암호 기술로 주목받고 있다. 대표적인 동형암호 scheme으로는 실수 및 복소수 연산 기반의 근사 동형암호인 CKKS scheme이 있다. 본 논문은 CKKS scheme을 이용하여 연관성 분석의 평가지표 중 지지도(support)를 효율적으로 계산하는 방법을 제안하며, 행렬 곱셈 연산을 활용하여 복수의 itemset들에 대한 지지도 계산을 병럴적으로 수행하는 방법을 제안한다. 또한, HEaaN 라이브러리를 이용하여 제안한 지지도 계산 방법의 구현 및 평가를 진행한다. 평가 결과에 따르면 제안 방법에 의해 계산된 지지도 값은 암호화 없이 평문 상태에서 계산된 지지도 값과 거의 일치하여, 제안 방법이 사용자 데이터에 대한 프라이버시를 보호하면서도 지지도 값을 효과적으로 계산함을 확인할 수 있었다.

상관관계 지표를 이용한 익명 데이터의 유용성 측정

홍용기, 고기혁, 양희동, 류찬호, 류승환

http://doi.org/10.5626/JOK.2023.50.12.1163

인공지능 사회에 접어들면서 데이터 수집과 활용이 활발히 진행되고 있다. 이에 따라 원본 데이터를 프라이버시 가이드라인에 위반되지 않고 활용 가능한 익명 데이터로 변환하는 익명화 기술 및 프라이버시 모델이 떠오르고 있다. 현재 널리 사용되고 있는 프라이버시 모델에는 k-익명성, l-다양성, 그리고 t-근접성이 있으며, 데이터의 활용 목적, 상황, 그리고 프라이버시 정도에 따라 모델과 매개변수를 선정해야 한다. 이때 데이터의 유용성을 극대화하면서 프라이버시 조건을 만족하는 데이터를 만드는 것이 최상의 시나리오라고 볼 수 있다. 이 과정을 프라이버시 보존 데이터 배포(Privacy-Preserving Data Publishing, PPDP)라고 하며, 이러한 최상의 시나리오를 도출하기 위해서는 유용성 및 프라이버시 지표들을 참고해야 한다. 본 논문은 프라이버시 관리자가 효율적인 익명화 데이터를 만들 수 있도록 도울 수 있는 효과크기 평균비용(Effect Size Average Cost)이라는 새로운 유용성 지표를 제시한다. 이는 준식별자와 민감 속성간의 상관관계 변화에 대한 지표이다. 본 논문에서는 k-익명성, l-다양성, 그리고 t-근접성이 적용된 테이블들에 대해 이 지표를 계산 및 비교하는 실험을 진행하였고, 그 결과 각각의 효과크기 평균비용들에 유의미한 차이점을 찾을 수 있었다. 따라서 이 지표가 프라이버시 모델 선정에 대한 판단 근거로 충분히 활용될 수 있는 가능성을 보였다.

프라이버시 보호 데이터 배포: 정형 및 비정형 데이터 비식별화 기술 동향

홍용기, 고기혁, 양희동, 류승환

http://doi.org/10.5626/JOK.2023.50.11.1008

인공지능 시대에 접어들면서 인공지능 개발을 위한 데이터의 수요가 늘어나고 있고, 이에 따라 데이터 공유와 배포가 활발히 이루어지고 있다. 그러나 배포된 데이터 활용시 개인정보 유출의 위험이 있기 때문에 데이터를 배포하기 전에 비식별화 과정이 필요하다. 이러한 비식별화 과정에서 지정된 프라이버시 가이드라인을 준수하면서 동시에 데이터의 유용성을 최대한으로 유지하는 일련의 과정인 프라이버시 보호 데이터 배포(Privacy-Preserving Data Publishing, PPDP)가 꾸준히 연구되어 왔다. 2000년대 초반 부터 정형 데이터(예: 표 혹은 관계형 데이터)를 비식별화 하는 기술들이 연구되어 왔으며, 수집된 데이터의 상당 부분이 비정형 데이터이고 그 비율이 늘어나고 있는 현재 비정형 데이터의 비식별화 연구 또한 활발히 이루어지고 있다. 본 논문에서는 기존 정형 데이터의 비식별화 기법들을 소개한 후에 비정형 데이터 비식별화 기법들의 최근 동향에 대해서 서술한다.

차분 프라이버시를 보장하는 프라이버시 보호 히스토그램 생성 기법

백인철, 김종선, 정연돈

http://doi.org/10.5626/JOK.2022.49.6.488

데이터 수집과 분석이 활발히 이루어지면서 개인의 프라이버시 보호의 필요성이 대두되고 있다. 프라이버시를 보호하면서 데이터의 수집과 분석을 수행하기 위해 다양한 프라이버시 모델이 제안되었다. 그 중 차분 프라이버시가 사실상의 표준으로 받아들여지고 있다. 본 논문에선 차분 프라이버시를 보장하는 프라이버시 보호 히스토그램 생성 기법을 제안한다. 제안 기법은 히스토그램의 계급 구간 설정 단계와 도수 산출 단계로 구성된다. 첫번째 단계에서는 계급 구간을 결정하는 휴리스틱 알고리즘에 라플라스 메커니즘을 적용하여 차분 프라이버시를 만족하는 계급 구간 개수를 설정한다. 두번째 단계에서는 각 계급 구간에 해당하는 도수에 라플라스 메커니즘을 적용하여 차분 프라이버시를 보장하는 도수를 산출한다. 제안하는 기법이 차분 프라이버시를 보장함을 보이고, 실험을 통해 프라이버시 예산 값의 크기와 분배 비율에 따른 히스토그램의 정확성을 비교한다.

암호화된 트래픽의 특성을 활용한 네트워크 단위 트래커 탐지 기법

이동근, 주민우, 이원준

http://doi.org/10.5626/JOK.2022.49.4.314

제3자 트래커는 웹 추적 기술을 통해 이용자의 위치나 방문 기록을 포함한 민감 정보를 수집함으로써 데이터 프라이버시 침해를 야기한다. 이에 트래커를 탐지하여 차단함으로써 이용자를 보호하는 여러 기법들이 제안된 바 있으나, 이들은 저마다 종속성과 성능 측면에서의 한계가 존재한다. 본 논문은 최초로 암호화된 트래픽의 특성을 활용한 네트워크 단위 트래커 탐지 기법을 제안한다. 본 기법은 트래커가 발생시키는 암호화된 트래픽의 부채널 정보를 기반으로 특성을 추출하여 분류 모델을 학습시키고, 이용자 기기와 브라우저에 독립적으로 적용되어 네트워크 내부의 트래커 트래픽을 높은 정확도로 탐지함으로써 네트워크에 속한 이용자들의 정보 유출을 방지한다. 본 논문에서는 실제 트래커 트래픽 데이터를 수집하여 분석함으로써 일반 트래픽과 구분되는 트래커 트래픽의 특징을 탐구하고, 암호화된 트래픽에서 추출한 특성을 트래커 탐지에 활용할 수 있음을 보인다.

지역 차분 프라이버시를 만족하는 시계열 위치 데이터 수집 및 분석

정기정, 이혁기, 정연돈

http://doi.org/10.5626/JOK.2022.49.4.305

위치 데이터를 생성할 수 있는 스마트 기기의 보급에 따라 위치 기반 서비스가 폭발적으로 증가하고 있다. 사용자의 위치 데이터는 민감한 정보이기 때문에 원본을 그대로 이용한다면 개인의 프라이버시가 침해될 수 있다. 본 논문은 데이터 수집 환경에서 사용할 수 있는 강력한 프라이버시 모델인 지역 차분 프라이버시를 만족하는 시계열 위치 데이터 수집 방법과 시계열 위치 데이터의 특성을 고려한 분석방법을 제안한다. 데이터 수집 과정에서 개인의 위치는 비트 배열로 표현한다. 이후, 각 배열의 비트는 프라이버시 보호를 위해 확률 기반 응답을 이용하여 변조한다. 데이터 분석 과정에서는 은닉 마르코프 모델을 이용하여 위치 빈도 분석을 진행한다. 또한 기존 분석 기법에서 불가능한 시공간 상관관계 분석을 추가로 수행한다. 제안 기법의 성능을 보이기 위하여 서울시 지하철을 기반으로 가상의 경로 데이터를 생성하고, 제안하는 기법의 결과를 분석한다.

가명정보 결합 활성화를 위한 차분 프라이버시 기반 프라이버시 보호 결합률 사전 계산

이협진, 김종선, 정연돈

http://doi.org/10.5626/JOK.2022.49.3.250

데이터 3법이 시행되면서 다양한 분야의 가명정보를 지정된 전문기관을 통해 결합하여 활용할 수 있게 되었다. 전체 데이터를 결합하기 전에 전문기관은 두 가명정보 간의 결합률을 사전에 확인할 수 있는 서비스를 제공하고 있다. 하지만 기존의 결합률 사전 계산 방식은 프라이버시 침해가 발생할 수 있는 취약점을 가지고 있다. 본 논문은 전문기관이 제공하는 임의의 일회성 키값을 사용하여 결합 의뢰기관들이 단방향 해시 기법을 통해 데이터를 익명 처리 후 전문기관에 전달하는 방법과 전문기관에서 결합률 사전 계산 시 차분 프라이버시를 보장하는 프라이버시 보호 결합률 계산 방법을 제안한다. 제안하는 방법은 결합 의뢰기관이 전문기관에 제공하는 데이터의 익명성을 보장하며, 기존의 결합률 사전 계산 방법에서 발생할 수 있는 프라이버시 침해를 방지한다. 실험을 통해 제안 기법이 차분 프라이버시를 만족하면서도 유용한 결합률을 산출함을 확인하였다.

Rényi 차분 프라이버시를 적용한 WGAN 모델 연구

이수진, 박철희, 홍도원, 김재금

http://doi.org/10.5626/JOK.2021.48.1.128

다양한 서비스를 이용함으로써 개인정보는 수집되며, 관리자는 수집된 데이터들로부터 가치를 추출하고 결과를 분석하여 개개인의 맞춤형 정보를 제공한다. 하지만 의료 데이터와 같은 민감한 데이터는 프라이버시 침해문제가 있으며, 이에 재현 데이터 생성 모델로 GAN이 많이 사용되고 있다. 그러나 GAN은 원본 데이터의 민감한 정보까지 학습하므로 프라이버시 취약점이 존재한다. 따라서 GAN의 프라이버시 보호를 위해 많은 연구가 수행되었다. 특히 강력한 프라이버시 보호 모델인 차분 프라이버시를 적용한 연구가 진행되었지만, 데이터의 유용성 측면에서 실제 환경에 적용하기에는 부족하다. 본 논문에서는 프라이버시와 유용성을 보장하는 Rényi 차분 프라이버시를 적용한 GAN 모델을 연구한다. 특히 WGAN 및 WGAN-GP을 기반으로 프라이버시를 보존하지 않은 기존의 모델, 차분 프라이버시를 적용한 모델, 그리고 Rényi 차분 프라이버시를 적용한 모델들을 통해 생성된 재현 데이터를 비교 분석한다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr