디지털 라이브러리[ 검색결과 ]
불균형이 있는 소규모 드라마 데이터 셋을 위한 준지도 객체 검출 기법
http://doi.org/10.5626/JOK.2024.51.11.978
드라마 영상 속의 프레임 이미지는 주로 사람을 중심으로 줌 인 되는 경우가 많다. 결과적으로, 드라마 데이터에는 사람 중심의 이미지가 우세하며 이로 인해서 자연스럽게 클래스 불균형이 발생한다. 본 논문에서는 객체 검출 작업을 위한 드라마 데이터의 클래스 불균형 문제를 다루고 준지도 학습 프레임워크 내에서 이 문제를 해결하기 위한 다양한 샘플링 방법을 제안한다. 성능 평가를 위한 실험에서 특수한 샘플링 방법을 사용하여 제안한 준지도 학습 접근 방식이 기존의 지도 및 준지도 방법보다 성능이 우수하다는 것을 보여준다. 이 연구는 고유한 특성을 가진 특수 데이터 셋에서 객체 검출 성능을 최적화하기 위해 적절한 학습 데이터와 샘플링 방법을 선택하는 것이 중요하다는 점을 강조한다.
소프트웨어 결함 예측에 적합한 생성적 적대 신경망 모델 식별 연구
http://doi.org/10.5626/JOK.2022.49.1.52
소프트웨어 결함 예측은 결함이 야기될 모듈을 식별해 한정된 품질 보증 자원을 효과적으로 배분하는데 도움을 준다. 소프트웨어 결함 데이터는 비결함 인스턴스의 수가 결함 인스턴스의 수보다 많은 클래스 불균형 문제를 겪는다. 대부분의 기계 학습에서 특정 클래스의 인스턴스 비율이 한쪽으로 치우치게 되면 결함 예측 성능에 부정적인 영향을 끼친다. 따라서 본 연구에서는 생성적 적대 신경망 모델(Generative Adversarial Network, GAN)을 사용해 클래스 불균형 문제를 해결하고, 결함 예측 성능 향상을 목표로 한다. 이를 위해, 본 연구에서는 여러 종류의 GAN 모델 중 소프트웨어 결함 예측에 적합한 모델은 무엇인지 비교하고, 관련 연구에서 적용하지 않았던 GAN 모델들의 적용성 여부를 확인한다. 본 연구에서는 이미지 생성에 최적화되어 있는 Vanilla-GAN(GAN)과 Conditional GAN(cGAN), Wasserstein GAN(WGAN) 모델을 소프트웨어 결함 예측 데이터에 적합하게 개조한 후, 개조한 GAN과 cGAN, WGAN, Tabular GAN(TGAN), Modeling Tabular data using Conditional GAN(CTGAN)의 성능을 비교 실험한다. 실험 결과, CTGAN 모델이 소프트웨어 결함 예측 데이터에 적합함을 보인다. 또한 CTGAN의 하이퍼파라미터 중 결함 발견율(Recall)을 높이고, 결함 오보율(Probability of False Alarm, PF)를 낮추는 하이퍼파라미터 값은 무엇인지 민감도 분석을 수행한다. 실험 결과, 데이터셋에 따라 하이퍼파라미터를 조정해야 함을 보였다. 우리의 제안한 기법이 소프트웨어 결함 예측의 성능을 향상시켜 한정된 자원을 효과적으로 할당하는데 도움이 될 것이라고 기대한다.
텍스트 마이닝과 차원 축소 기법을 적용한 향상된 컨피규레이션 버그 리포트 예측
http://doi.org/10.5626/JOK.2021.48.1.35
소프트웨어 실패의 주요 원인들 중 하나로 컨피규레이션 버그가 있다. 소프트웨어 조직들은 이슈 트래킹 시스템을 통해 버그 리포트들을 수집하고 관리하는데, 버그 할당자는 해당 버그가 컨피규레이션 버그인지 식별하는데 시간을 소비할 수 있다. 컨피규레이션 버그를 예측하는 방법을 통해 버그 할당자의 의사 결정에 도움을 줘 노력을 줄일 수 있다. 본 논문에서는 텍스트 마이닝 기법과 차원 축소 기법을 이용하여 향상된 분류 모델을 제안한다. 본 논문은 6개의 오픈 소스 소프트웨어 프로젝트로부터 4,457개의 버그 리포트를 추출하고 컨피규레이션 버그 리포트를 분류하는 모델을 학습하고 예측 성능을 평가한다. 가장 좋은 성능을 보이는 방법은 Bag of Words로 피쳐를 추출하고 선형판별분석(LDA: Linear Discriminant Analysis)를 이용하여 피쳐의 차원을 축소 후 SMOTEENN 샘플링 기법을 이용하여 k-Nearest Neighbors 모델을 사용한다. 이에 대한 AUC 값은 0.9812이고 MCC가 0.942이다. 이는 Xia et al.의 방법보다 더 좋은 성능을 보이며, 이전 연구에서의 클래스 불균형 문제를 해결한다. 이러한 향상된 컨피규레이션 버그 리포트 예측을 통해, 이를 버그 할당자의 의사 결정에 필요한 정보를 줄 수 있거나 시간을 단축시킬 수 있다.
불균형 웹 어플리케이션 공격 탐지를 위한 CNN 기반 저복잡도 판정 신뢰도 추정
http://doi.org/10.5626/JOK.2020.47.9.842
최근 웹 어플리케이션 공격의 급격한 증가와 함께 그 종류가 다양해짐에 따라 기존의 기법들만으로는 이를 탐지하는 것에 한계가 있었다. 이러한 문제를 해결하기 위해 convolutional neural network(CNN) 과 같은 기계 학습을 이용한 탐지 기법이 제안되었으나, 이러한 탐지 기법은 판정 오류 샘플에 대한 판정의 신뢰도가 낮다는 단점이 있다. 이 문제를 해결하기 위해, Monte-Carlo batch normalization (MCBN)기법이 제안되었다. 구체적으로, MCBN 기법은 임의의 판정할 샘플이 포함된 서로 다른 mini-batch들을 CNN을 이용하여 반복 판정을 수행하고 이 결과를 평균하여 판정 신뢰도를 추정한다. 그러나 이 기법에서는 mini-batch 를 구성하는 M개의 데이터 중 하나의 판정 데이터를 제외한 모든 데이터에 훈련 데이터를 사용하기 때문에 많은 연산이 요구된다. 따라서 본 논문에서는 불균형 웹 어플리케이션 공격 탐지를 위한 저복잡도 판정 신뢰도 추정 기법을 제안한다. 제안 기법은 판정을 위한 mini-batch 구성 시, 정상 및 공격 샘플 구성 비율을 훈련 과정에서의 비율과 동일하게 유지한다. 이를 위해 판정 데이터에 대한 임시 판정을 이용하여 대략적인 클래스 간 비율을 확인하고 부족한 클래스 데이터를 훈련 데이터로부터 과대표집 하였다. 이를 통해 제안 기법은 MCBN 기법에 비해 계산량을 최대 M배까지 줄였다. 모의 실험 결과로부터, MCBN 기법과 비교하여 판정 성능이 향상되었고 판정 신뢰도 성능저하가 크지 않은 것을 확인하였다.
욕설문장 분류의 불균형 데이터 해결을 위한 전이학습 방법
http://doi.org/10.5626/JOK.2017.44.12.1275
욕설문장을 지도학습 접근법으로 분류하기 위해서 욕설인지 아닌지 판별된 학습 문장이 필요하다. 문자수준의 컨볼루션 신경망이 각 문자에 대해 강건성을 가지기 때문에 욕설분류에 적합하지만, 학습에 많은 데이터가 필요하다는 단점이 있다. 본 논문에서는 이를 해결하기 위해 임의로 생성한 욕설/비욕설 문장 쌍을 컨볼루션 신경망을 기반으로 하는 분류기에 학습시켜 컨볼루션 신경망의 필터가 욕설의 특징을 분류하도록 조정한 후, 실제 훈련문장을 학습시킬 때 필터를 재사용하는 전이학습방법을 제안한다. 이로써 데이터 부족과 클래스 불균형으로 인한 영향이 감소하여 분류 성능이 향상될 것이다. 실험 및 평가는 총 3가지 데이터에 대해 수행되었으며, 문자수준 컨볼루션 신경망을 활용한 분류기는 모든 데이터에서 전이학습을 적용했을 때 더 높은 F1 점수를 획득하였다.