디지털 라이브러리[ 검색결과 ]
개인정보의 비식별화에 따른 기계학습의 예측 정확도 분석 연구
http://doi.org/10.5626/JOK.2020.47.10.906
개인정보 보호 및 개인정보 보호법 개정에 따른 개인정보 비식별화 관련 사항이 대두되고 있다. 또한 4차 산업혁명의 원동력으로 인공 지능과 기계학습의 활용이 증대되고 있다. 본 논문에서는 k-익명성(k=2)을 적용한 비식별화 개인정보를 활용하여 기계학습의 의사결정나무 알고리즘으로 예측 정확도를 실험적으로 검증한다. 그리고 입력 데이터의 예측 결과를 비교하여 기계학습에서 비식별화 개인정보를 활용 시 제한 사항을 알아보고자 한다. 개인정보보호법 개정안에 따라 기계학습에 비식별화 개인정보를 사용할 경우, 개인정보 비식별화 수준과 분석 알고리즘을 고려하여 활용해야 한다는 것을 제안한다.
결정트리 기반의 기계학습을 이용한 동적 데이터에 대한 재익명화기법
사물인터넷, 클라우드 컴퓨팅, 빅데이터 등 새로운 기술의 도입으로 처리하는 데이터의 종류와 양이 증가하면서, 개인의 민감한 정보가 유출되는 것에 대한 보안이슈가 더욱 중요시되고 있다. 민감정보를 보호하기 위한 방법으로 데이터에 포함된 개인정보를 공개 또는 배포하기 전에 일부를 삭제하거나 알아볼 수 없는 형태로 변환하는 익명화기법을 사용한다. 그러나 준식별자의 일반화 수준을 계층화하여 익명화를 수행하는 기존의 방법은 데이터 테이블의 레코드가 추가 또는 삭제되어 k-익명성을 만족하지 못하는 경우에 더 높은 일반화 수준을 필요로 한다. 이와 같은 과정으로 인한 정보의 손실이 불가피하며 이는 데이터의 유용성을 저해하는 요소이다. 따라서 본 논문에서는 결정트리 기반의 기계학습을 적용하여 기존의 익명화방법의 정보손실을 최소화하여 데이터의 유용성을 향상시키는 익명화기법을 제안한다.
데이터 유용성 향상을 위한 서비스 기반의 안전한 익명화 기법 연구
개인정보는 살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보를 말한다. 정보주체의 민감한 정보를 포함하고 있는 개인정보는 유출시 각종 범죄에 악용될 수 있다. 이를 막기 위해 데이터를 공개하거나 배포하기 전에 개인 식별 요소를 제거하는 방법을 사용한다. 하지만 이름이나 주민등록번호 등의 식별자를 삭제 또는 변경하여 정보의 공개를 제한하더라도, 다른 데이터와 연결하여 분석하면 개인정보가 노출될 가능성이 존재한다. 이러한 문제점을 해결하기 위하여 본 논문에서는 서비스에 활용될 속성은 낮은 수준의 익명화를 수행하여 실제 사용될 정보의 유용성을 높이고, 그와 함께 연결 공격을 방지하여 하나의 원본 데이터 테이블에서 둘 이상의 익명화된 테이블을 동시에 제공할 수 있는 익명화 기법을 제안한다. 그리고 협조적 게임이론에 기반을 둔 실험을 통해 본 제안의 우수성을 입증한다.