디지털 라이브러리[ 검색결과 ]
멀티모달 오토인코더 앙상블 기반의 URL 문자열 및 HTML 그래프를 활용한 피싱 웹페이지 탐지
http://doi.org/10.5626/JOK.2025.52.6.461
인터넷의 발전으로 인해 피싱 공격에 노출되는 사용자가 증가하고 있으며, 이를 예방하기 위한 효과적인 탐지 방법이 필수적이다. 기존의 피싱 탐지 방법은 주로 URL의 문자 시퀀스를 분석하는 데 중점을 두었으나, 피싱 URL은 정상 URL과 유사한 패턴을 모방하고 그 수명이 짧아 탐지의 정확도에 한계가 있음이 알려졌다. 이러한 문제를 해결하기 위해 본 논문에서는 URL문자열과 HTML 그래프 데이터를 동시에 활용하는 멀티모달 앙상블 기반의 피싱 웹페이지 탐지 방법을 제안한다. 이 방법은 URL 데이터를 문자 단위로 분해하여 컨볼루션 오토인코더로 처리하고, HTML 의 DOM 구조를 그래프 형태로 변환한 후 그래프 컨볼루션 오토인코더를 통해 분석하여 트랜스포머 레이어를 통해 피싱 여부를 판단한다. 본 연구에서 제안한 모델은 기존 모델 대비 F1 Score 최대 18.91%p의 탐지 성능 개선을 달성했다. 또한, 케이스 분석을 통해 URL과 HTML 간의 상호관계성을 보인다.
피싱 URL 분류를 위한 컨볼루션-순환 트리플렛 신경망 기반 웹주소 특징공간의 학습
http://doi.org/10.5626/JOK.2021.48.2.147
폭발적으로 성장하는 소셜 미디어 서비스 등으로 인해 개인간의 연결이 강화된 환경에서는 URL을 통해 전파되는 피싱 URL의 자동화된 분류가 필수적이다. URL을 구성하는 문자와 단어수준의 특징을 모델링하기 위한 컨볼루션-순환신경망 기반의 피싱 URL 분류용 딥러닝 모형은 정확도의 측면에서 최고의 성능을 달성하였으나, 피싱 URL 데이터의 클래스 불균형으로 인한 샘플링 단계에서의 문제와 특징공간 구축시의 문제가 알려졌다. 본 논문에서는 URL 도메인에서의 클래스 불균형 이슈를 딥러닝 기반의 URL 특징공간 생성 태스크의 측면에서 지적하고 URL간의 유사도를 직접 학습할 수 있는 개선된 트리플렛 신경망 구조를 제안하였다. 제안하는 방법은 실제 웹으로부터 수집된 60,000건의 URL 데이터셋에 대해 검증되었고 최신의 딥러닝 기반 방법 대비 최고의 성능을 달성하였다. 개선된 트리플렛 신경망은 시간해상도 별 10겹 교차검증으로 평가되었고, 기존 딥러닝 알고리즘 대비 재현율 측면 45%의 향상을 보임으로써 피싱 URL 분류 분야에서의 표현형 학습 접근의 타당성을 검증하였다.