디지털 라이브러리[ 검색결과 ]
상관관계 지표를 이용한 익명 데이터의 유용성 측정
http://doi.org/10.5626/JOK.2023.50.12.1163
인공지능 사회에 접어들면서 데이터 수집과 활용이 활발히 진행되고 있다. 이에 따라 원본 데이터를 프라이버시 가이드라인에 위반되지 않고 활용 가능한 익명 데이터로 변환하는 익명화 기술 및 프라이버시 모델이 떠오르고 있다. 현재 널리 사용되고 있는 프라이버시 모델에는 k-익명성, l-다양성, 그리고 t-근접성이 있으며, 데이터의 활용 목적, 상황, 그리고 프라이버시 정도에 따라 모델과 매개변수를 선정해야 한다. 이때 데이터의 유용성을 극대화하면서 프라이버시 조건을 만족하는 데이터를 만드는 것이 최상의 시나리오라고 볼 수 있다. 이 과정을 프라이버시 보존 데이터 배포(Privacy-Preserving Data Publishing, PPDP)라고 하며, 이러한 최상의 시나리오를 도출하기 위해서는 유용성 및 프라이버시 지표들을 참고해야 한다. 본 논문은 프라이버시 관리자가 효율적인 익명화 데이터를 만들 수 있도록 도울 수 있는 효과크기 평균비용(Effect Size Average Cost)이라는 새로운 유용성 지표를 제시한다. 이는 준식별자와 민감 속성간의 상관관계 변화에 대한 지표이다. 본 논문에서는 k-익명성, l-다양성, 그리고 t-근접성이 적용된 테이블들에 대해 이 지표를 계산 및 비교하는 실험을 진행하였고, 그 결과 각각의 효과크기 평균비용들에 유의미한 차이점을 찾을 수 있었다. 따라서 이 지표가 프라이버시 모델 선정에 대한 판단 근거로 충분히 활용될 수 있는 가능성을 보였다.
프라이버시 보호 데이터 배포: 정형 및 비정형 데이터 비식별화 기술 동향
http://doi.org/10.5626/JOK.2023.50.11.1008
인공지능 시대에 접어들면서 인공지능 개발을 위한 데이터의 수요가 늘어나고 있고, 이에 따라 데이터 공유와 배포가 활발히 이루어지고 있다. 그러나 배포된 데이터 활용시 개인정보 유출의 위험이 있기 때문에 데이터를 배포하기 전에 비식별화 과정이 필요하다. 이러한 비식별화 과정에서 지정된 프라이버시 가이드라인을 준수하면서 동시에 데이터의 유용성을 최대한으로 유지하는 일련의 과정인 프라이버시 보호 데이터 배포(Privacy-Preserving Data Publishing, PPDP)가 꾸준히 연구되어 왔다. 2000년대 초반 부터 정형 데이터(예: 표 혹은 관계형 데이터)를 비식별화 하는 기술들이 연구되어 왔으며, 수집된 데이터의 상당 부분이 비정형 데이터이고 그 비율이 늘어나고 있는 현재 비정형 데이터의 비식별화 연구 또한 활발히 이루어지고 있다. 본 논문에서는 기존 정형 데이터의 비식별화 기법들을 소개한 후에 비정형 데이터 비식별화 기법들의 최근 동향에 대해서 서술한다.
적대적 예시에 대한 향상된 견고성을 위한 심층신경망 뉴런 가지치기
http://doi.org/10.5626/JOK.2023.50.7.588
심층신경망은 적대적 예시의 보안 취약점이 존재하며, 이는 심층신경망의 잘못된 분류 결과를 도출한다. 본 논문에서는 정상 데이터와 적대적 예시에서의 심층신경망 뉴런 활성화 패턴이 서로 다를 것이라는 가정을 세운다. 정상 데이터에서는 심층신경망 뉴런이 활성화되지 않고, 적대적 예시에서만 활성화되는 심층신경망 뉴런을 찾아 이를 가지치기하는 보정 기법을 제안한다. 다양한 적대적 예시 생성 기법을 통해 적대적 보정을 진행하였으며, MNIST와 CIFAR-10 데이터셋을 사용하였다. MNIST 데이터셋으로 가지치기 된 심층신경망은 정상 데이터의 분류 정확도를 99% 이상으로 유지하면서, 가지치기 방식(레이블별, 모든 레이블 가지치기)에 따라 최대 100%, 70.20% 증가한 적대적 보정 성능을 확인하였다. 반면 CIFAR-10 데이터셋은 정상 데이터셋에 대하여 분류 정확도 하락을 보이지만, 가지치기 방식에 따라 최대 99.37%, 47.61% 적대적 보정 성능이 향상되었다. 이외에도 적대적 학습 기법과의 비교 분석을 통해 제안한 가지치기 적대적 보정 성능의 효율성을 확인하였다.
설명가능한 인공지능을 위한 특성기여도 분석 방법론 조사
http://doi.org/10.5626/JOK.2020.47.12.1181
인공지능 기반 기술이 사회경제학적으로 큰 영향을 미치는 분야에 활용될 예정임에 따라 인공지능 기술의 안전성 및 신뢰성을 확보하기 위하여 그 판단에 대해 설명하려는 연구들이 이루어져 왔다. 이러한 ‘설명가능한 인공지능’의 일환으로서 인공지능의 입력 특성 각각에 기여도를 부여함으로써 판단을 설명하고자 하는 ‘특성기여도 분석(feature attribution)’ 방법론이 있다. 본 논문에서는 지금까지 개발된 아홉 가지의 대표적인 특성기여도 분석 방법론에 대해 조사하고, 조사된 특성기여도 분석 기법들에 대해 네 가지 서로 다른 분류 기준을 사용하여 분류한다. 이와 같은 분류의 결과로서 지금까지 개발된 특성기여도 분석 방법론들 중 많은 기법이 특정 가정하에서만 적용가능하다는 점, 공리적 정의와 같은 이론적인 배경이 뒷받침되지 않는다는 점 등의 한계점을 확인할 수 있었다. 분류에 대한 분석을 바탕으로 통합된 특성기여도 분석 기법 개발을 위하여 반드시 선행되어야 할 연구방향을 제시한다.