검색 : [ keyword: LSTM ] (18)

다변량 데이터의 피처 조합을 활용한 ConvLSTM 기반 COVID-19 확산 예측

김예진, 김석연, 장윤

http://doi.org/10.5626/JOK.2021.48.4.405

COVID-19는 감염자의 비말을 통해 전파된다. 비말의 전파는 시공간의 영향을 받는다. 전염병의 전파는 감염자와 비감염자의 건강 상태, 환경적 요인 등 다양한 요인의 상호작용으로 이루어진다. 하지만 예측 모델에 전염병과 관련된 정보를 모두 포함하고, 정보간의 관계를 파악하는 것은 쉽지 않다. 본 논문에서는 COVID-19의 전염 특징을 딥러닝 학습 데이터셋에 포함하고, COVID-19 확산 데이터의 조합이 딥러닝 예측 성능에 미치는 영향을 파악하는 연구 방법을 제안하였다. 예측에 앞서 COVID-19의 전염 특징을 파악하고, 데이터 전처리 시 COVID-19 확산 특징을 포함하기 위한 고려 사항을 정의하였다. 딥러닝 모델링 시에는 시공간 예측을 위해 ConvLSTM을 응용한 예측 모델을 설계하였다. 예측 모델을 테스트하는 단계에서는 확산 데이터를 여러 가지 방식으로 조합하고, 각 조합이 딥러닝 예측 성능에 미치는 영향을 분석하였다. 성능 평가를 위해 COVID-19 확진자의 정보와 확진자가 방문한 장소의 특징을 기준으로 47개의 피처를 만들고, 120개의 피처 조합을 실험하였다. 또한 모델 성능 평가 지표로 MAPE를 이용하였다. 실험 결과, COVID-19 데이터셋에서 피처 조합 모델의 MAPE 평균값으로 1.234, 피처를 조합하지 않은 모델의 MAPE 평균값으로 2.217을 얻을 수 있었다.

Improvement in Network Intrusion Detection based on LSTM and Feature Embedding

Hyeokmin Gwon, Chungjun Lee, Rakun Keum, Heeyoul Choi

http://doi.org/10.5626/JOK.2021.48.4.418

NIDS(Network Intrusion Detection System)는 네트워크 경계 보안에 필수적인 도구로써 네트워크 침입을 감지하기 위해 네트워크 트래픽 패킷을 검사한다. 현존하는 많은 연구들은 NIDS를 구축하기 위해 기계 학습 기법을 사용했는데, 이러한 연구들은 다양한 인공지능 알고리즘의 효과를 입증했지만, 네트워크 트래픽 데이터의 시계열 정보를 활용하는 경우는 드물었다. 신경망 기반 모델을 이용한 연구에는 네트워크 트래픽 데이터의 범주형 정보를 보다 더 효과적으로 활용할 수 있는 가능성이 남아있다. 본 논문에서는 LSTM(Long Short-Term Memory) 네트워크를 이용한 순차정보와 임베딩 기법을 이용한 범주형 정보에 근거한 네트워크 침입 탐지 모델을 제안한다. 검증을 위해 종합적인 네트워크 트래픽 데이터 집합인 UNSW-NB15를 이용하여 비교 실험을 수행하였고, 실험 결과는 제안된 방법이 99.72%의 이항 분류 정확도로 기존의 방식들 보다 높은 성능을 보이는 것을 확인하였다.

원소들의 발생 순서와 시간 간격을 모두 고려하는 효과적인 이상 시퀀스 탐지 기법

이주연, 이기용

http://doi.org/10.5626/JOK.2021.48.4.469

최근 다양한 응용에서 시간의 흐름에 따라 관측된 원소들로 구성된 시퀀스 데이터가 활발하게 생성되고 있다. 주어진 시퀀스들 중에서 이상(anomalous) 시퀀스를 탐지하는 기법들은 활발히 연구되어 왔으나 이들 대부분은 주로 원소들의 발생 순서들만을 고려한다. 본 논문에서는 원소들의 발생 순서뿐만이 아니라 원소들 사이의 시간 간격까지 고려한 효과적인 이상 시퀀스 탐지 기법을 제안한다. 이를 위해 제안 방법은 두 개의 오토인코더를 결합한 모델을 사용한다. 첫 번째는 LSTM 오토인코더로서 원소들의 발생 순서에 대한 특징을 학습하며, 두 번째는 그래프 오토인코더로서 원소들 간 시간 간격에 대한 특징을 학습한다. 학습이 완료되면 각 시퀀스를 학습된 모델에 입력하여 모델이 복원한 원소들의 발생 순서 및 원소들 간의 시간 간격이 원 시퀀스와 차이가 큰 시퀀스를 이상 시퀀스로 판단한다. 본 논문에서는 가상데이터를 사용한 다양한 실험을 통해 제안 방법이 RNN 오토인코더로 학습하는 방법 및 단일 LSTM 오토인코더만을 사용하는 방법 그리고 딥러닝을 사용하지 않는 방법보다 효과적으로 이상 시퀀스를 탐지함을 확인하였다.

LSTM 오토인코더를 이용한 가중 그래프 임베딩 기법

서민지, 이기용

http://doi.org/10.5626/JOK.2021.48.1.13

그래프 임베딩이란 그래프를 저차원 공간의 벡터로 표현하는 것이다. 최근, 딥러닝을 사용해 그래프를 임베딩하는 연구가 진행되고 있지만 대부분의 연구는 그래프의 노드 간 연결 구조에 집중하고 노드간 간선에 임의의 가중치를 갖는 가중 그래프에 대한 임베딩 기법에 대해서 많은 연구가 진행되지 않았다. 따라서 본 논문에서는 가중 그래프를 위한 새로운 임베딩 기법을 제안한다. 제안 기법은 가중 그래프가 주어지면 먼저 해당 그래프의 내부에 존재하는 노드-가중치 시퀀스들을 추출한 다음 LSTM 오토인코더를 사용해 각 시퀀스들을 고정된 길이의 벡터로 인코딩한다. 마지막으로 각 그래프의 인코딩 벡터들을 모아 하나의 최종 임베딩 벡터를 생성한다. 이렇게 얻어진 임베딩 벡터는 가중 그래프간 유사도 측정이나 분류 등에 활용될 수 있다. 여러 유사 가중 그래프 그룹들로 구성된 합성 데이터와 실제 데이터를 이용한 실험을 통해 제안 기법이 유사 가중 그래프를 탐색하는데 94% 이상의 정확도를 보임을 확인하였다.

링크 추정을 위한 지식 그래프 임베딩 기반의 앙상블 모델

최수정, 박세영

http://doi.org/10.5626/JOK.2020.47.5.473

링크 추정은 개체 사이의 관계를 추정하는 문제로, 지식 베이스를 완전하게 만들기 위한 태스크 중 하나이다. 지식 베이스는 많은 개체와 관계들을 포함하고 있지만, 누락된 지식 트리플들이 존재하기 때문에 완전하지 않다. 누락된 지식 트리플들은 지식 베이스의 활용에 한계를 야기하기 때문에 누락된 관계 정보들을 찾아 지식 베이스를 완전하게 만들기 위해 본 논문은 링크 추정을 수행하고자 한다. 기존의 링크 추정을 위한 연구들은 주로 지식 그래프 임베딩을 활용하여 누락된 관계들을 찾았다. 하지만 임베딩된 벡터들은 정확성이 부족하기 때문에 hit@10에서는 좋은 성능을 보였지만, hit@1에서는 부족한 성능을 보여 주었다. 그러므로 하나의 지식 그래프 임베딩만을 사용하여 링크를 추정하는 것은 효과적이지 않으며, 지식 그래프 임베딩들은 각자의 관점을 가지고서 임베딩하기 때문에 이들을 함께 고려하는 것이 필요하다. 따라서 본 논문에서는 기존의 링크 추정의 성능을 높이기 위하여 지식 그래프 임베딩 기반의 앙상블 모델을 제안한다. 지식 그래프 임베딩 모델들은 각자의 관점 및 특성을 가지고 있기 때문에, 이들을 결합하면 다양한 관점들을 고려할 수 있다. WN18과 FB15K 데이터 셋으로 실험한 결과, 기존의 각 모델들보다 제안한 모델이 평균적으로 13.5% 높은 성능을 보여 주었다. 또한 사용자 파라미터에 기존 모델보다 강건한 결과를 보여 제안한 모델의 우수함을 증명하였다.

LSTM(Long Short-Term Memory)을 이용한 가짜 리뷰 생성과 분석 및 평가

오영교, 구동영

http://doi.org/10.5626/JOK.2019.46.6.515

의견 스팸(opinion spam)은 특정 목적을 가진 집단이 생성한 의견을 통하여 타인 또는 타 집단에 영향을 미치는 행위를 일컫는다. 이는 소셜 네트워크 상에서 특정 대상의 평판에 영향을 미칠 수 있다는 점에서 온라인 서비스가 활발히 이루어지고 있는 현 시점에 큰 문제로 여겨질 수 있으며, 국내외 산업 및 학계에서도 관심을 보이고 있다. 본 연구에서는 의견 스팸 행위 탐지에 앞서 국내 의견 스팸 현황을 확인하고 순환신경망을 이용해 가짜 리뷰를 자동 생성해봄으로써 의견 스팸으로 인한 피해 가능성을 예측해본다. 특히, 순환신경망의 장기 의존성 문제가 개선된 LSTM(long short-term memory)을 기반으로 한글 언어 모델을 학습하고 Word2Vec을 이용하여 생성된 리뷰의 특정 용어를 대체함으로써 품질 개선을 시도한다. 특정 외국어 기반 학습 모델을 한국어에 적용하고 성능 및 적절성을 평가함으로써 향후 한국어 의견 스팸에 대한 대응 방향을 살펴본다.

Skip-Connected LSTM RNN을 이용한 악성코드 탐지 모델

배장성, 이창기, 최선오, 김종현

http://doi.org/10.5626/JOK.2018.45.12.1233

프로그램은 명령어가 연속해서 나타나는 하나의 시퀀스로 볼 수 있고 악성코드는 악의적인 목적을 가진 하나의 프로그램이다. 본 논문에서는 프로그램을 의미 정보를 가지는 하나의 명령어 시퀀스로 가정하고 이를 시퀀스 데이터 모델링에 적합한 딥러닝 모델인 Long Short-Term Memory Recurrent Neural Network(LSTM RNN)를 이용하여 악성코드를 탐지하고자 한다. 다양한 실험을 위해 명령어 시퀀스를 유니그램 및 트라이그램으로 나누어 여러 딥러닝 모델의 입력 자질로 사용한다. 여러 딥러닝 모델은 입력된 명령어 시퀀스를 이용해 프로그램이 정상파일인지 악성코드인지 판별하게 된다. 또한 본 논문에서 제안하는 Skip-Connected LSTM RNN 모델을 악성코드 탐지에 적용하여 LSTM encoder 및 CNN모델과 비교 실험하여 더 우수한 성능을 나타냄을 보인다. 실험 결과, 명령어 시퀀스 트라이그램 데이터에서 Skip-Connected LSTM RNN 모델이 LSTM encoder 및 CNN 모델 보다 우수한 성능을 보였다.

Bidirectional LSTM CRF 기반의 개체명 인식을 위한 단어 표상의 확장

유홍연, 고영중

http://doi.org/

개체명 인식이란 문서 내에서 인명, 기관명, 지명, 시간, 날짜 등 고유한 의미를 가지는 개체명을 추출하여 그 종류를 결정하는 것을 말한다. 최근 개체명 인식 연구에서 가장 우수한 성능을 보여주고 있는 모델은 Bidirectional LSTM CRFs 모델이다. 이러한 LSTM 기반의 딥 러닝 모델은 입력이 되는 단어 표상에 의존적이다. 따라서 입력이 되는 단어를 잘 표현하기 위하여 단어 표상을 확장하는 방법에 대한 연구가 많이 진행되어지고 있다. 본 논문에서는 한국어 개체명 인식을 위하여 Bidirectional LSTM CRFs모델을 사용하고, 그 입력으로 사용되는 단어 표상을 확장하기 위해 사전 학습된 단어 임베딩 벡터, 품사 임베딩 벡터, 음절 기반에서 확장된 단어 임베딩 벡터, 그리고 개체명 사전 자질 벡터를 사용한다. 최종 단어 표상 확장 결과 사전 학습된 단어 임베딩 벡터만 사용한 것 보다 8.05%p의 성능 향상을 보였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr