디지털 라이브러리[ 검색결과 ]
고차원 데이터에서 무감독 이상치 탐지를 위한 차원 축소 방법
http://doi.org/10.5626/JOK.2022.49.7.537
많은 이상치 탐지 방법들 중에서 트리 기반 방법인 Isolation Forest는 이상치 탐지 성능이 높은 것으로 알려져 있으나, 텍스트 데이터와 같은 고차원 데이터에서는 데이터의 희소성과 노드 분할을 위해 선택할 수 있는 총 속성 수의 제한으로 인해 적용하는데 한계를 가진다. 본 논문에서는 고차원 데이터에서 이상치 탐지를 위한 차원 축소 방법을 제안한다. 첨도를 최대화하는 선형 변환에 의한 차원 축소를 수행하고, 변환된 공간에서 Isolation Forest에 의한 이상치 탐지 모델을 적용한다. 일변량 확률 분포에서 이상치가 존재할 가능성을 나타내는 값으로 해석할 수 있는 첨도가 높은 특징들의 부분집합을 입력 특징으로 사용하고 출력 노드에서 첨도를 최대화하는 목적 함수를 사용하는 단층 신경망을 이용하여 선형변환을 구하는 방법을 사용하였다. 텍스트 데이터를 이용한 실험결과, 제안된 차원 축소 방법으로 변환한 공간에서 모델링한 Isolation Forest가 더 높은 탐지 성능을 보여주었다.
전력 소비 데이터 스트림에서 이상 패턴 탐지 방법을 이용한 전기 계약종별 위반 탐지
http://doi.org/10.5626/JOK.2020.47.5.504
계약 용도별로 금액이 다르게 적용되는 전기요금 체계로 인해 이를 악용하는 계약종별 위반으로 인한 손실이 크게 발생하고 있다. 최근에는 지능형 전력 계량 인프라의 보급 확대에 따라 스마트 계량기를 통해 실시간으로 소비자의 전기 사용 정보를 파악하는 것이 가능하게 되었으나, 계약종별 위반 발생을 탐지하는 연구는 여전히 수집한 위반 데이터의 부족으로 인한 데이터 불균형 문제를 가진다. 본 논문에서는 특정 계약종별에 대한 정상 소비자들의 사용 데이터를 이용하여 정상 사용 패턴을 모델링하고 같은 계약종별 소비자의 스마트 계량기 데이터 스트림에서 이상 패턴 탐지 방법을 적용하여 계약위반 사용을 탐지하는 방법을 제안한다. 스마트 미터기에서 수집한 300여명의 3년 7개월간 데이터를 사용한 실험에서 제안 방법은 f1값 0.83의 탐지율과 위약 발생 후 평균 6일 이내의 탐지 성능을 나타냈다. 이는 실제 계약종별 위반 탐지에서 제안 방법이 효과적으로 사용될 수 있음을 보여준다.
스트리밍 데이터에 대한 최소제곱오차해를 통한 점층적 선형 판별 분석 기법
http://doi.org/10.5626/JOK.2018.45.1.69
시간에 따라 순차적으로 들어오는 스트리밍 데이터에서는 전체 데이터 셋을 한꺼번에 모두 이용하는 배치 학습에 기반한 차원축소 기법을 적용하기 어렵다. 따라서 스트리밍 데이터에 적용하기 위한 점층적 차원 감소 방법이 연구되어왔다. 이 논문에서는 최소제곱오차해를 통한 점층적 선형 판별 분석법을 제안한다. 제안 방법은 분산행렬을 직접 구하지 않고 새로 들어오는 샘플의 정보를 이용하여 차원 축소를 위한 사영 방향을 점층적으로 업데이트한다. 실험 결과는 이전에 제안된 점층적 차원축소 알고리즘과 비교하여 이 논문에서 제안한 방법이 더 효과적인 방법임을 입증한다.
컨셉 변동 스트리밍 데이터를 위한 적응적 가중치 조정을 이용한 동적 앙상블 방법
http://doi.org/10.5626/JOK.2017.44.8.842
스트리밍 데이터는 시간에 따라 지속적으로 생성되는 데이터 시퀀스이다. 시간이 지남에 따라 데이터의 분포 또는 컨셉이 변화할 수 있으며, 이러한 변화는 분류 모델의 성능을 저하시키는 요인이 된다. 점층적 적응적 학습 방법은 컨셉 변화의 정도에 따라 현재 분류 모델의 가중치를 조절하여 업데이트를 수행함으로써 컨셉 변화에 대한 분류 모델의 성능을 유지할 수 있게 한다. 그러나, 컨셉 변화의 정도에 맞는 적절한 가중치를 결정하기가 어렵다는 문제점이 있다. 본 논문에서는 컨셉 변화에 따른 적응적 가중치 조정에 기반한 동적 앙상블 방법을 제안한다. 실험 결과는 제안한 방법이 다른 비교 방법들에 비해 높은 성능을 보여줌을 입증한다.
Application of an Adaptive Incremental Classifier for Streaming Data
시간이 흐름에 따라 데이터 분포가 변하거나 관심 개념이 달라질 수 있는 스트리밍 데이터 분석에서 개념 변화에 적응해 나갈 수 있는 능력은 점층적 학습 과정에서 매우 중요하다. 이 논문에서는 개념 변화를 가진 스트리밍 데이터에서 적응적 점층적 분류기를 위한 일반화된 프레임워크를 제안한다. 분류기에 의해 예측되는 신뢰도 벡터와 클래스 라벨 벡터 사이의 거리를 이용하여 분류기 성능 패턴을 나타내는 분포를 구성하고 컨셉 변화에 대한 가설 검정을 수행한다. 추정되는 p-값을 이용하여 오래된 데이터에 대한 가중치를 자동으로 조정하여 분류기 업데이트에 이용한다. 제안된 방법을 두 가지 타입의 선형 판별 분류기에 적용한다. 컨셉 변화를 가진 스트리밍 데이터에 대한 실험 결과는 제안하는 적응적 점층적 학습방법이 점층적 분류기의 예측 정확도를 크게 향상시킴을 입증한다.
스트리밍 데이터에서 확률 예측치를 이용한 효과적인 개념 변화 탐지 방법
스트리밍 데이터 분석에서 개념 변화가 일어나는 시점을 정확히 탐지하는 것은 분류 모델의 성능을 유지하는 데 있어서 매우 중요한 작업이다. 오류율은 스트리밍 데이터에서 개념 변화 탐지를 위해 많이 사용되는 척도이다. 그러나 0과 1로 이루어진 이진 값만으로 예측 결과를 묘사하는 것은 분류 모델의 행동 패턴을 나타내는 유용한 정보의 손실을 초래할 수 있다. 이 논문에서는 오류율을 이용하는 대신에 확률 예측치를 사용하여 분류기의 성능 패턴을 묘사하고 급격한 변화를 탐지하는 효과적인 개념 변화 탐지 방법을 제안한다. 합성데이터와 실제 스트리밍 데이터를 이용한 실험 결과는 제안한 방법이 개념 변화 시점을 탐지하는데 뛰어난 성능을 가짐을 보여준다.