디지털 라이브러리[ 검색결과 ]
철저한 대조 학습 방법을 통한 생성적 적대 신경망의 불균형 데이터 생성 품질 향상
http://doi.org/10.5626/JOK.2023.50.4.295
딥러닝(Deep learning) 알고리즘의 성능이 향상되면서 실세계의 다양한 문제를 해결하기 위한 방법으로 사용되고 있다. 실세계를 반영하는 데이터의 경우 사건의 발생 빈도나 수집 난이도에 따라 데이터의 불균형(Imbalance)이 나타날 수 있다. 데이터를 구성하는 클래스의 수가 일정하기 않은 데이터를 불균형 데이터라고 하며, 특히 데이터가 상대적으로 적은 소수 클래스는 딥러닝 알고리즘을 통해 학습하기 어렵다. 최근에는 데이터 증강을 위한 방법으로 생성적 적대 신경망(Generative Adversarial Nets, GANs)이 응용되고 있으며, 소수 클래스 학습을 위해 자기 지도 학습(Self-supervised learning)기반의 사전 학습(Pre-training)이 제안되었다. 하지만 생성 모델(Generative Model)을 학습하는 과정에서 불균형 데이터의 클래스 정보를 활용하기 때문에 소수 클래스의 학습이 제대로 이루어지지 않아 생성 데이터의 품질이 떨어지는 문제가 나타난다. 이러한 문제를 해결하기 위하여 본 논문에서는 유사도 기반의 철저한 대조 학습(Exhaustive Contrastive Learning) 방법을 제안하였다. 제안 방법은 프레쳇 인셉션 거리(Frechet Inception Distance, FID)와 인셉션 점수(Inception Score, IS)를 통해 정량적으로 평가하였다. 본 논문에서 제안하는 방법은 기존 방법보다 프레쳇 인셉션 거리는 16.32, 인셉션 점수는 0.38의 성능 개선을 확인하였다.
피싱 URL 분류를 위한 컨볼루션-순환 트리플렛 신경망 기반 웹주소 특징공간의 학습
http://doi.org/10.5626/JOK.2021.48.2.147
폭발적으로 성장하는 소셜 미디어 서비스 등으로 인해 개인간의 연결이 강화된 환경에서는 URL을 통해 전파되는 피싱 URL의 자동화된 분류가 필수적이다. URL을 구성하는 문자와 단어수준의 특징을 모델링하기 위한 컨볼루션-순환신경망 기반의 피싱 URL 분류용 딥러닝 모형은 정확도의 측면에서 최고의 성능을 달성하였으나, 피싱 URL 데이터의 클래스 불균형으로 인한 샘플링 단계에서의 문제와 특징공간 구축시의 문제가 알려졌다. 본 논문에서는 URL 도메인에서의 클래스 불균형 이슈를 딥러닝 기반의 URL 특징공간 생성 태스크의 측면에서 지적하고 URL간의 유사도를 직접 학습할 수 있는 개선된 트리플렛 신경망 구조를 제안하였다. 제안하는 방법은 실제 웹으로부터 수집된 60,000건의 URL 데이터셋에 대해 검증되었고 최신의 딥러닝 기반 방법 대비 최고의 성능을 달성하였다. 개선된 트리플렛 신경망은 시간해상도 별 10겹 교차검증으로 평가되었고, 기존 딥러닝 알고리즘 대비 재현율 측면 45%의 향상을 보임으로써 피싱 URL 분류 분야에서의 표현형 학습 접근의 타당성을 검증하였다.