검색 : [ keyword: 오토인코더 ] (14)

멀티모달 오토인코더 앙상블 기반의 URL 문자열 및 HTML 그래프를 활용한 피싱 웹페이지 탐지

윤준호, 최석훈, 김혜정, 부석준

http://doi.org/10.5626/JOK.2025.52.6.461

인터넷의 발전으로 인해 피싱 공격에 노출되는 사용자가 증가하고 있으며, 이를 예방하기 위한 효과적인 탐지 방법이 필수적이다. 기존의 피싱 탐지 방법은 주로 URL의 문자 시퀀스를 분석하는 데 중점을 두었으나, 피싱 URL은 정상 URL과 유사한 패턴을 모방하고 그 수명이 짧아 탐지의 정확도에 한계가 있음이 알려졌다. 이러한 문제를 해결하기 위해 본 논문에서는 URL문자열과 HTML 그래프 데이터를 동시에 활용하는 멀티모달 앙상블 기반의 피싱 웹페이지 탐지 방법을 제안한다. 이 방법은 URL 데이터를 문자 단위로 분해하여 컨볼루션 오토인코더로 처리하고, HTML 의 DOM 구조를 그래프 형태로 변환한 후 그래프 컨볼루션 오토인코더를 통해 분석하여 트랜스포머 레이어를 통해 피싱 여부를 판단한다. 본 연구에서 제안한 모델은 기존 모델 대비 F1 Score 최대 18.91%p의 탐지 성능 개선을 달성했다. 또한, 케이스 분석을 통해 URL과 HTML 간의 상호관계성을 보인다.

정확도와 다양성을 고려한 시각적 질문 생성 프레임워크

최희연, 최동완

http://doi.org/10.5626/JOK.2025.52.1.62

시각적 질문 생성(Visual Question Generation)은 주어진 이미지에 대한 질문을 생성하는 과제로, 필요에 따라 답변이나 답변유형 등 추가 정보를 활용한다. 이미지에는 여러 객체가 포함되어 있어 VQG 시스템은 한 이미지에 대해 다양한 질문을 생성할 수 있어야 하며, 생성된 질문은 이미지 및 추가 정보와 연관성을 가져야 한다. 그러나 연관성에 집중한 모델은 학습 과정에서 데이터셋에 과적합되어 질문 다양성이 부족해질 수 있고, 반대로 다양성에 치우친 모델은 입력과의 연관성이 떨어질 수 있다. 이 사이 균형을 맞추기 위해, 본 논문에서는 BCVQG(BLIP-CVAE VQG)를 제안한다. BCVQG는 대규모 이미지-텍스트 데이터셋으로 사전학습된 비전-언어 모델 BLIP과 조건부 변분 오토인코더(Conditional Variational AutoEncoder)를 결합해 설계되었으며, 제안된 방법의 효과는 VQA2.0 데이터셋을 통한 정량적 및 정성적 평가를 통해 입증된다.

지하공동구 화재 이상 탐지를 위한 ConvLSTM Variational AutoEncoder 모델 연구

안요셉, 윤효근

http://doi.org/10.5626/JOK.2024.51.4.333

지하공동구 화재를 탐지하지 못하면 재난 관리 비용이 증가하는 동시에 시민의 삶과 산업에 막대한 피해와 혼란을 초래하므로 정확한 화재 이상 징후 탐지가 매우 중요하다. 최근 AI, IoT 및 디지털 트윈 등 첨단기술 기반 지하공동구 화재·재난 관리 시스템에 관한 연구가 활발히 진행중이다. 그러나 IoT 센서는 통신 환경이나 상태에 따라 데이터의 손실 혹은 잡음이 포함된 저품질 데이터가 발생할 수 있고, 이로 인해 부정확한 화재 이상 탐지가 발생할 수 있다. 본 논문에서는 시계열 데이터의 시·공간적 특성을 동시에 반영하여 데이터 잡음이나 손실이 있더라도 정확하게 이상치를 탐지하는 ConvLSTM-VAE을 제안한다. 실험을 위해 화재 시뮬레이터 (FDS)를 이용해 충북 오창 지하공동구를 모사한 가상환경을 조성하여 화재 데이터를 수집하였다. 실험에서는 제안된 모델과 시계열 이상 탐지 모형들의 성능을 비교하고, 화재 상황 분류 성능을 확인하였다. ConvLSTM-VAE는 정밀도 0.881579, 재현율 0.99505, 정확도 0.930693, F1점수 0.934884로 이상 탐지 성능에서 비교모델 중 가장 우수한 것으로 분석되었다.

계층적인 잠재 표현 기반의 사이버 범죄 신조어 자동 탐지 프레임워크

김용연, 온병원

http://doi.org/10.5626/JOK.2023.50.12.1121

사이버 범죄자들은 의사소통을 위해 기존 단어에 범죄 의미를 추가하거나 유사한 단어로 대체하여 은어를 끊임없이 생산해 사용한다. 이에 대응하기 위해서는 지속적인 모니터링과 수작업이 필요하며 딥러닝을 이용할 경우 레이블 된 많은 양의 학습데이터가 필요하다. 그러나, 사람이 직접 레이블링 하는 것은 시간과 비용이 많이 소요되고 사이버 범죄 특성상 은밀하게 진행되기 때문에 많은 양의 학습데이터를 수집하는 것은 한계 있다. 본 논문에서는 한계를 해결하기 위해 오토인코더를 기반으로 프레임워크를 개발하고 계층적인 잠재 벡터 유사도 비교를 통해 문맥적 사이버 범죄 은어와 신조어를 효과적으로 탐지하는 방안을 제안한다. 사이버 범죄 게시글 데이터셋을 사용하여 실험한 결과, 해당 프레임워크는 유사도 임계값 0.5에서 최대 99.1%의 정확도를 보였다.

다중 양식의 시각 데이터와 합성 신경망 기반의 오토인코더를 활용한 디자인권 침해 여부 판독 기술

김정걸, 서지유, 이찬재, 조성민, 김승민, 윤석민, 윤영

http://doi.org/10.5626/JOK.2022.49.2.137

최근 진품과 위조품의 차이를 육안으로 구별하기 힘들 정도로 위조품이 점점 정교하게 제조되고 있으며 그 물량이 엄청나게 증가하고 있다. 이를 구분하기 위해서는 해당 물품에 대해 교육을 받은 판독권자가 직접 물품을 검사해야 하나 많은 시간이 소요되어 모든 판독 요청에 응대하기 어렵다. 이 논문에서는 사진 및 도면 이미지를 기반으로 합성곱 신경망과 오토인코더를 활용하여 다수의 물품에 대해 분해 및 파괴 검사를 행하지 않고 검사 물품의 특정 디자인권 침해 여부를 판단하는 확장 가능한 시스템의 설계 및 타당성을 검증하기 위한 실험을 진행하였다.

Deep Neural Networks and End-to-End Learning for Audio Compression

Daniela N. Rim, Inseon Jang, Heeyoul Choi

http://doi.org/10.5626/JOK.2021.48.8.940

단일 딥러닝 모델에 대한 최근의 성과는 고도로 구조화된 데이터를 하나의 통합된 모델로 다루는 일들을 가능하게 했다. 하지만, 오디오 신호를 압축하기 위한 단일 딥러닝 모델을 학습하는 것은 내부적으로 신호에 대해 이산표현을 필요로 하기 때문에 어려운 작업이었다. 본 논문에서는 은닉공간에 이산표현을 가지는 변이 오토인코더 의 훈련 전략 내에서 순환 신경망(RNNs)를 결합하는 단일모델 기반 심층망 모델과 학습방법을 제시한다. 제안하는 방법에서는 베르누이(Bernoulli) 분포를 위한 재파라미터화 기법을 사용하여 이산표현에서 역전파를 가능하게 하도록 하였으며 그 결과 실제 오디오 압축에 필수적인 인코더와 디코더를 분리할 수 있었다. 우리가 아는 범위에서, 제안된 모델은 오디오 압축을 위해 RNN를 사용한 단일모델 학습의 최초의 구현으로써, 20.53dB의 SDR (신호 대 왜곡 비율)을 달성한다.

항목 인기도 편향 관점에서의 잡음제거 오토인코더의 효과

김진홍, 이재웅, 이종욱

http://doi.org/10.5626/JOK.2021.48.5.575

잡음제거 오토인코더는 추천 시스템에서 최근 흔히 사용되고 있는 모델이다. 이 모델은 입력에 잡음을 주어 학습시키는 오토인코더의 신경망 기반 추천 모델로 오토인코더에 비해 높은 정확도를 보인다. 본 논문에서는 잡음제거 오토인코더의 학습 과정을 이해하기 위해서, 항목의 인기도 편향 관점에서 잡음의 효과를 분석한다. 분석을 위해 우리는 다음의 두 가지 방법으로 실험을 설계한다. 우선, 오토인코더에 잡음을 주는 방법으로 학습된 항목 벡터의 L2 노름(L2-norm)의 변화를 관찰한다. 다음으로는, 항목의 인기도에 의해 일차적으로 추출된 항목에만 잡음을 주는 방법을 통해, 잡음제거 오토인코더의 성능 향상 효과와 항목의 인기도간 관련성을 분석한다. 실험결과를 통해 인기도에 의해 생긴 항목 벡터 노름의 분산의 크기가 잡음에 의해 줄어드는 것을 확인하였으며, 또한 인기도가 높은 항목에 잡음을 줄 때 정확도 향상에 도움이 되는 것을 확인하였다.

원소들의 발생 순서와 시간 간격을 모두 고려하는 효과적인 이상 시퀀스 탐지 기법

이주연, 이기용

http://doi.org/10.5626/JOK.2021.48.4.469

최근 다양한 응용에서 시간의 흐름에 따라 관측된 원소들로 구성된 시퀀스 데이터가 활발하게 생성되고 있다. 주어진 시퀀스들 중에서 이상(anomalous) 시퀀스를 탐지하는 기법들은 활발히 연구되어 왔으나 이들 대부분은 주로 원소들의 발생 순서들만을 고려한다. 본 논문에서는 원소들의 발생 순서뿐만이 아니라 원소들 사이의 시간 간격까지 고려한 효과적인 이상 시퀀스 탐지 기법을 제안한다. 이를 위해 제안 방법은 두 개의 오토인코더를 결합한 모델을 사용한다. 첫 번째는 LSTM 오토인코더로서 원소들의 발생 순서에 대한 특징을 학습하며, 두 번째는 그래프 오토인코더로서 원소들 간 시간 간격에 대한 특징을 학습한다. 학습이 완료되면 각 시퀀스를 학습된 모델에 입력하여 모델이 복원한 원소들의 발생 순서 및 원소들 간의 시간 간격이 원 시퀀스와 차이가 큰 시퀀스를 이상 시퀀스로 판단한다. 본 논문에서는 가상데이터를 사용한 다양한 실험을 통해 제안 방법이 RNN 오토인코더로 학습하는 방법 및 단일 LSTM 오토인코더만을 사용하는 방법 그리고 딥러닝을 사용하지 않는 방법보다 효과적으로 이상 시퀀스를 탐지함을 확인하였다.

학습 데이터 선별을 위한 오토인코더 기반 학습 개선도 측정 방안

정유나, 황명권, 성원경

http://doi.org/10.5626/JOK.2021.48.2.195

머신러닝 알고리즘은 최근의 우수한 성능에도 불구하고 개발과 사용을 어렵게 하는 단점이 있다. 이는 머신러닝 알고리즘의 최적 모델 개발과 배포까지의 반복적인 과정이 높은 시간 비용을 요구하기 때문이다. 이에 본 논문에서는 이러한 시간 부하를 줄이기 위한 방안으로, 전체 학습 데이터셋 중 일부 데이터를 선별하여 빠르게 학습하면서도 근사 솔루션을 제공할 수 있는 방법에 관하여 논한다. 먼저 학습데이터는 오토인코더에 기반하여 저차원 잠재공간의 특징 벡터로 맵핑된다. 그리고 맵핑된 각 샘플의 위치를 기반으로, 상대적으로 학습하기는 어렵지만 학습 개선도가 높은 샘플은 높은 가중치를 부여받는다. 최종적으로 가중치를 기반으로 한 중요도 샘플링을 수행하여 데이터를 선별하고 이를 학습에 활용한다. 실험결과, 제안하는 방법이 무작위 샘플링에 비해 더 높은 학습 성과를 달성하는 샘플을 선정할 수 있음을 보일 수 있었다.

LSTM 오토인코더를 이용한 가중 그래프 임베딩 기법

서민지, 이기용

http://doi.org/10.5626/JOK.2021.48.1.13

그래프 임베딩이란 그래프를 저차원 공간의 벡터로 표현하는 것이다. 최근, 딥러닝을 사용해 그래프를 임베딩하는 연구가 진행되고 있지만 대부분의 연구는 그래프의 노드 간 연결 구조에 집중하고 노드간 간선에 임의의 가중치를 갖는 가중 그래프에 대한 임베딩 기법에 대해서 많은 연구가 진행되지 않았다. 따라서 본 논문에서는 가중 그래프를 위한 새로운 임베딩 기법을 제안한다. 제안 기법은 가중 그래프가 주어지면 먼저 해당 그래프의 내부에 존재하는 노드-가중치 시퀀스들을 추출한 다음 LSTM 오토인코더를 사용해 각 시퀀스들을 고정된 길이의 벡터로 인코딩한다. 마지막으로 각 그래프의 인코딩 벡터들을 모아 하나의 최종 임베딩 벡터를 생성한다. 이렇게 얻어진 임베딩 벡터는 가중 그래프간 유사도 측정이나 분류 등에 활용될 수 있다. 여러 유사 가중 그래프 그룹들로 구성된 합성 데이터와 실제 데이터를 이용한 실험을 통해 제안 기법이 유사 가중 그래프를 탐색하는데 94% 이상의 정확도를 보임을 확인하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr