검색 : [ keyword: 상관관계 ] (7)

상관관계 지표를 이용한 익명 데이터의 유용성 측정

홍용기, 고기혁, 양희동, 류찬호, 류승환

http://doi.org/10.5626/JOK.2023.50.12.1163

인공지능 사회에 접어들면서 데이터 수집과 활용이 활발히 진행되고 있다. 이에 따라 원본 데이터를 프라이버시 가이드라인에 위반되지 않고 활용 가능한 익명 데이터로 변환하는 익명화 기술 및 프라이버시 모델이 떠오르고 있다. 현재 널리 사용되고 있는 프라이버시 모델에는 k-익명성, l-다양성, 그리고 t-근접성이 있으며, 데이터의 활용 목적, 상황, 그리고 프라이버시 정도에 따라 모델과 매개변수를 선정해야 한다. 이때 데이터의 유용성을 극대화하면서 프라이버시 조건을 만족하는 데이터를 만드는 것이 최상의 시나리오라고 볼 수 있다. 이 과정을 프라이버시 보존 데이터 배포(Privacy-Preserving Data Publishing, PPDP)라고 하며, 이러한 최상의 시나리오를 도출하기 위해서는 유용성 및 프라이버시 지표들을 참고해야 한다. 본 논문은 프라이버시 관리자가 효율적인 익명화 데이터를 만들 수 있도록 도울 수 있는 효과크기 평균비용(Effect Size Average Cost)이라는 새로운 유용성 지표를 제시한다. 이는 준식별자와 민감 속성간의 상관관계 변화에 대한 지표이다. 본 논문에서는 k-익명성, l-다양성, 그리고 t-근접성이 적용된 테이블들에 대해 이 지표를 계산 및 비교하는 실험을 진행하였고, 그 결과 각각의 효과크기 평균비용들에 유의미한 차이점을 찾을 수 있었다. 따라서 이 지표가 프라이버시 모델 선정에 대한 판단 근거로 충분히 활용될 수 있는 가능성을 보였다.

특징 최소화와 선택을 이용한 욕창 발생 예측을 위한 중요 혈액 특징값 예측

김연희, 정호열, 최장환

http://doi.org/10.5626/JOK.2023.50.12.1054

욕창은 한번 발생하면 치료가 어려울 뿐만 아니라 치료 과정에서 막대한 경제적 비용이 발생한다. 그러므로 욕창의 발생을 예측하는 것은 환자의 고통 측면과 경제적 측면에서 중요하다. 본 연구에서는 척수손상환자의 혈액검사를 통해 얻은 임상 정보들과 욕창 간의 상관관계를 분석하여 욕창 예측에 있어 유의미한 특징 정보를 제공한다. 특징 선택 기법에서 주로 쓰이는 피어슨, 스피어만, 켄달타우의 상관계수를 비교 분석하였을 뿐만 아니라, 머신러닝 기법인 XGBoost와 LightGBM을 사용하여 특징의 중요도를 구하였다. 마지막으로, 특징의 중요도 관점에서 상위 5개의 특징들을 입력 값으로 활용한 장단기메모리 모델을 통해 다른 주요 특징들을 예측하게 한 결과, 우수한 예측력을 보이는 것을 확인하였다. 본 연구결과를 통해 의료인들에게 욕창 조기 예측 모델에 있어 주요한 임상 특징들에 대한 가이드라인을 제공할 수 있을 것으로 기대된다.

센서별 시간지연 교차 상관관계를 이용한 GCN 기반의 시계열 데이터 이상 탐지 방법

이강우, 김윤영, 정성원

http://doi.org/10.5626/JOK.2023.50.9.805

시계열 데이터를 통한 장비 이상 탐지는 더 큰 피해를 방지하고 생산성 향상에 기여할 수 있어 매우 중요한 과제이다. 이와 관련하여 시계열 데이터 이상 탐지에 대한 연구가 활발히 진행되고 있지만, 다음과 같은 제약사항들이 있다. 첫째, 센서 간 상관관계를 분석하지 않기 때문에 불필요한 허위 알람이 발생한다. 둘째, 센서 간 상관관계를 분석하기 위해 완전 그래프로 모델링하고 GAT(Graph Attention Networks)를 적용하였으나, 불필요한 연산의 증가로 많은 분석시간이 소요된다. 본 논문에서는 위의 제약사항을 해결하기 위해 SC-GCNAD(Sensor-specific Correlation GCN Anomaly Detection)를 제안한다. SC-GCNAD는 시계열 데이터의 특징을 반영한 TLCC(Time Lagged Cross Correlation)를 적용하여 정확한 센서별 상관관계를 분석하고, 상관관계 표현력이 뛰어난 GCN(Graph Convolutional Networks)을 활용한다. 그 결과 기존 모델 대비 F1-Score는 최대 6.37% 향상하고, 분석시간은 최대 95.31% 단축한다.

복수 개의 대장암 유전자 상관관계 네트워크 간 비교 분석 향상을 위한 네트워크 스케일링 방법

한언용, 정인욱

http://doi.org/10.5626/JOK.2022.49.8.646

질병 분석 모델에서 유전자 발현정보를 바탕으로 다양한 연구방법들이 제시되고 있다. 암 유전체 데이터 분석에 있어 패스웨이를 바탕으로 숨겨진 특성을 발굴하는 방법들은 결과 해석에 유용하다. 본 연구에서는 유전자들의 발현조절 정보를 토대로 한 패스웨이 단위의 유전자 상관관계 네트워크를 비교분석 하였다. 비교하고자 하는 두 네트워크의 규모의 차이가 생기게 되면 정보량의 편향성으로 인해 보다 큰 규모의 네트워크 정보에 치우쳐진 결과를 나타내게 된다. 이러한 편향성을 해소하기 위해 네트워크 망 구성에 대한 정보량을 이용하여 서로 다른 배경을 가진 환자군의 네트워크를 조정하는 방법을 제안한다. 정규화된 네트워크들은 주요 유전자군들의 비교분석법을 적용했으며, 총 4종류의 대장암의 아형 데이터를 활용하여 202개의 패스웨이 네트워크를 분석한 후 아형 특이적인 5개 패스웨이를 발굴했다. 이들은 모두 대장암과 연관된 주요 패스웨이로 선행연구에서 보고된 바가 있어 제안하는 방법의 유효성을 보였다.

상관 계수를 활용한 이종 결함 예측의 학습 프로젝트 선택 기법

김은섭, 백종문, 류덕산

http://doi.org/10.5626/JOK.2021.48.8.920

소프트웨어 결함 예측은 과거의 결함정보를 바탕으로 개발 중인 소프트웨어의 결함을 예측하는 기술이다. 최근에는 서로 다른 메트릭을 가진 프로젝트 사이에서도 기술을 적용하기 위해 이종 결함예측이 떠오르고 있다. 지금까지 이종 결함 예측은 한 쌍의 학습 및 타겟 프로젝트가 주어졌을 때 성능을 높이는 것에 초점을 맞춰왔다. 그러나 실제 개발에서는 하나의 타겟 프로젝트에 대해 여러 학습 후보 프로젝트가 존재하므로 어떤 것으로 모델을 학습해야 최적의 결과를 얻을지 알 수 없다. 본 연구에서는 이러한 문제를 해결하기 위해 상관 계수를 활용한 학습 프로젝트 선택 기법을 제안한다. 메트릭 매칭 후 대응하는 데이터 간 상관 계수의 평균이 가장 높은 프로젝트를 학습 프로젝트로 선택한 결과, 무작위 선택과 비교하여 예측 성능이 증가했다. 또한, 100개 미만의 인스턴스를 학습 후보에서 제외하여 성능을 향상할 수 있었다. 이를 통해 실제 개발에서 결함이 존재하는 모듈을 더 정확히 예측할 수 있다.

Seasonal-Trend Decomposition과 시계열 상관관계 분석을 통한 비정상 이벤트 탐지 시각적 분석 시스템

연한별, 장윤

http://doi.org/

본 논문에서는 시공간 정보를 포함하는 트윗 스트림에서 비정상적인 이벤트에 대한 상관관계를 사용자에게 시각적으로 분석하는 방법을 다양한 실험을 통하여 제안한다. 제안하는 방법으로는 트윗에서 토픽 모델링을 수행한 다음 계절요인과 추세요인을 반영한 시계열 분석 기법을 이용하여 비정상적인 이벤트 후보군을 추출한다. 추출된 토픽이 포함되어 있는 데이터를 대상으로 다시 한 번 토픽을 추출하여 시계열 분석을 수행한 다음 앞서 추출한 토픽과의 상관관계를 분석하여 비정상적인 이벤트를 탐지할 수 있도록 하였다. 비정상 이벤트를 탐지하는 모든 과정에 시각적 분석 방법을 이용하여 단순한 수치 정보가 아닌 시각적 패턴 형태로 나타냄으로써 사용자는 직관적으로 비정상 이벤트의 동향과 주기적인 패턴을 분석할 수 있도록 하였다. 실험은 2014년 1월 1일부터 2014년 6월 30일까지 국내에서 발생한 트윗을 대상으로 2개의 사건[경주 마우나 리조트 붕괴 사건(2014.02.17.), 진도 여객선 침몰 사건(2014.04.16.)]에 대해 시각적 분석 시스템을 적용하여 사용자는 쉽게 데이터를 분석하고 이해할 수 있음을 보였다.

상관계수의 안전한 다자간 계산

홍선경, 김상필, 임효상, 문양세

http://doi.org/

본 논문에서는 분산 컴퓨팅 환경에서 데이터 제공자들이 각자 소유한 데이터의 프라이버시는 보호하면서도 피어슨(Pearson) 상관계수와 스피어만(Spearman)의 순위상관계수를 안전하게 계산하는 해결책을 각각 제안한다. 분산 컴퓨팅 환경에서 마이닝(또는 데이터 분석)을 수행하기 위해서는 원본 데이터를 상대방에게 제공해야 한다. 그러나, 원본 데이터는 민감한 정보를 포함하는 경우가 많고, 이때 데이터 제공자(소유자)는 프라이버시 보호를 이유로 정확한 값을 직접 노출하기를 원하지 않는다. 본 논문에서는 분산 컴퓨팅 환경의 데이터 제공자들이 각자 소유한 데이터는 상대방에게 공개하지 않으면서 상관관계를 계산하는 문제, 즉 안전한 상관관계 계산(SCC: Secure Correlation Computation) 문제를 정형적으로 정의한다. 그리고, 임의 행렬 기반 안전한 스칼라 곱을 사용하여 피어슨 상관계수와 순위상관계수에 대한 SCC 문제를 해결하는 방법을 각각 제안한다. 제안한 해결책이 바르게 수행함을 보이기 위해, 정확성과 안전성을 정리로 제시하고 증명한다. 또한, 실험을 통해 제안한 기법이 수행 시간 측면에서도 실용적인 방법임을 보인다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr