디지털 라이브러리[ 검색결과 ]
ETF 가격 방향성 예측을 위한 그래프 구조 학습 기반 신경망
http://doi.org/10.5626/JOK.2024.51.5.473
상장지수펀드(ETF)는 특정 지수를 추종하는 인덱스 펀드로, 개별 종목에 대한 위험도 및 운용 보수가 낮다는 특징을 가지고 있다. ETF 예측을 위해 다양한 방법들이 개발되었으며 최근 인공지능 기반 기술들이 개발되고 있다. 대표적인 방법은 시계열 기반 인공신경망을 활용하여 ETF의 가격 방향성을 예 측하는 것이다. 이는 ETF의 과거 가격 정보들을 효과적으로 반영하여 ETF의 등락을 예측할 수 있다는 장점이 있다. 하지만 개별 ETF의 과거 정보만 사용할 뿐 서로 다른 ETF 간의 관계를 반영하지 못하는 한계점을 지닌다. 이러한 문제를 해결하기 위해 본 논문에서는 ETF 간의 관계를 반영할 수 있는 모델을 제안한다. 제안 모델은 그래프 구조 학습을 통해 다양한 ETF 간의 관계를 표현하는 그래프를 추론하고, 이를 기반으로 그래프 신경망 모델을 통해 ETF 가격 방향성을 예측한다. 실험을 통해, 제안 모델이 개별 ETF 정보만 사용한 시계열 모델보다 우수한 예측 성능을 보이는 것을 확인하였다.
Ansible 프로젝트를 위한 교차 프로젝트 결함 예측
http://doi.org/10.5626/JOK.2024.51.3.229
코드형 인프라 (Infrastructure-as-Code, IaC)는 인프라의 생성, 배포 등과 같은 전체적인 관리를 코드를 통해 자동화하는 활동을 가리킨다. IaC는 그 효율성 덕분에 많은 기업들에서 사용되고 있고, 이에 IaC 도구 중 하나인 Ansible에서의 내부 결함 예측 기법이 많이 제안되었다. 최근, Ansible의 교차프로젝트 결함 예측의 적용 가능성에 대한 연구가 제안되었다. 이에 본 연구에서는 Ansible의 교차 프로젝트 결함 예측 기법을 적용한 후 그 성능을 분석하였다. 실험 결과, F1 기준 교차 프로젝트 결함 예측의 성능이 0.3∼0.5로 측정되었으며, 내부 프로젝트 결함 예측 기법을 대신해서 사용할 수 있을 것으로 나타났다. 따라서 이를 이용하여 Ansible의 소프트웨어 품질 보증 활동에 기여할 수 있을 것으로 기대한다.
실시간 지하공동구 화재 온도 예측을 위한 Residual CNN-LSTM 모델 연구
http://doi.org/10.5626/JOK.2024.51.2.131
지하공동구는 전력, 통신, 수도, 난방과 같은 라이프 라인을 공동으로 수용하는 국가 중요 시설물이다. 화재는 지하공동구에서 가장 많이 발생하는 사고 유형이며, 신속한 확인과 적절한 조치를 통해 피해를 최소화할 수 있다. 본 논문에서는 잔차 학습 기법을 적용한 CNN을 통해 효율적으로 데이터의 공간적 특성을 추출하는 동시에, 시간 정보를 고려하는 LSTM를 결합한 지하공동구 화재 온도 예측 모델인 Residual CNN-LSTM을 제안한다. 실험에서는 지하공동구 화재 발생 시나리오를 도출하고, 화재 역학 시뮬레이션 소프트웨어를 이용하여 화재 온도 데이터를 수집하였다. 실험 결과에서는 제안된 모델의 잔차 학습의 적절한 깊이를 분석하고, 이를 바탕으로 제안된 모델과 예측 모델들의 성능을 비교하였다. Residual CNN-LSTM은 RMSE 0.061529, MAE 0.053851, MAPE 6.007076으로 비교 모델보다 예측성능이 우수한 것으로 확인되었다.
심층 신경망과 랜덤포레스트를 이용한 유전암 관련 단일 염기 변이의 병원성 예측
http://doi.org/10.5626/JOK.2023.50.9.746
최근 유전자 검사의 보급으로 인해 개인의 유전자 변이를 탐색하고, 병원성 정보를 통해 유전적 질병을 진단 및 예방하는 것이 가능해졌다. 하지만, 밝혀진 변이 중 병원성 정보가 있는 것의 수는 상당히 적다. 이러한 문제점을 해결하기 위해 기계학습을 통해 변이의 병원성을 예측하는 방법이 제안되었다. 본 논문에서는 심층 신경망과 기존 연구들에서 널리 사용되었던 랜덤포레스트 및 로지스틱회귀를 변이 병원성 예측에 적용 및 비교한다. 실험 데이터는 유전암과 관련된 유전자 내에 존재하는 1,068 개의 단일 염기 변이들로 구성된다. 초매개변수 설정을 위해 생성된 100 개의 무작위 데이터 집합에 대한 실험 결과 랜덤 포레스트가 area under the precision recall curve에서 가장 우수한 성능을 보였다. 15 개의 홀드아웃 유전자 집합에 대한 실험에서는 심층 신경망이 평균적으로 가장 우수한 결과를 보였으나 두 번째로 우수한 랜덤포레스트와의 성능 차이는 유의미하지 않았다. 또한 로지스틱회귀는 두 모델에 비해 통계적으로 유의미하게 낮은 성능을 보였다. 결론적으로 심층 신경망과 랜덤포레스트가 로지스틱 회귀에 비해 유전암 관련 단일 염기 변이의 병원성 예측에 일반적으로 더 적합함을 알 수 있었다.
적대적 훈련 기반의 시계열 데이터 증강 기법
http://doi.org/10.5626/JOK.2023.50.8.671
최근 시계열 데이터는 사물인터넷(IoT)의 발전으로 인해 다양한 산업에서 생성되고 있으며 이에 따라 각 산업에서의 시계열 예측 수요가 늘어나고 있다. 대량의 시계열 데이터가 확보됨에 따라 시계열 예측을 위한 전통적인 통계적 방법들 뿐 아니라 딥러닝에 기반한 시계열 예측 연구가 활발해졌으며 딥러닝에 필수적인 데이터 증강 기법들 필요성 또한 대두되고 있다. 본 논문에서는 적대적 훈련을 기반으로 한 새로운 시계열 데이터 증강 기법을 제안한다. 제안된 방법은 기존의 적대적 훈련과는 다르게 적대적 훈련 반복 횟수에 대한 하이퍼파라미터 값을 고정하였으며 섭동의 세기를 블록 단위로 클리핑하여 학습에 활용하였다. 실험 결과 다양한 데이터셋에 대한 제안 기법의 일관된 성능 향상 효과를 확인할 수 있었다. 뿐만 아니라 기존 적대적 훈련과는 다르게 본 논문에서 제안하는 블록 단위 클리핑 및 하이퍼파라미터 값 고정의 필요성 또한 비교 실험을 통하여 검증하였다.
교차 버전 결함 예측용 적대적 학습 기반 딥 도메인 적응 기법 분석
http://doi.org/10.5626/JOK.2023.50.6.460
소프트웨어 결함 예측은 효과적인 테스팅 자원 할당에 유용한 기법이다. 소프트웨어 교차 버전 결함 예측은 소프트웨어가 연속적인 버전으로 개발되는 환경을 반영하며, 소프트웨어 모듈은 버전 업데이트 과정을 거치며 추가되거나 삭제된다. 이러한 과정의 반복은 버전 간의 데이터 분포 차이를 발생시키는 원인이 되며, 데이터 분포 차이는 예측 성능을 저하시킨다. 딥 도메인 적응 기법은 컴퓨터 비전 분야에서 소스와 타겟 데이터의 분포 차이를 줄이는데 사용되는 기법이다. 본 연구의 목표는 다양한 적대적 학습 기반의 딥 도메인 적응 기법을 활용해 버전 간의 데이터 분포 차이를 줄이고, 결함 예측 성능이 가장 우수한 기법을 식별하는 것이다. 우리는 딥 도메인 적응 기법인 Domain-Adversarial Neural Network(DANN)와 Adversarial Discriminator Domain Apaptation(ADDA), Wasserstein Distance Guided Representation Learning(WDGRL)의 성능을 비교 실험하며, 소스 데이터의 구성에 따른 성능 차이를 확인한다. 또한 학습 과정에 사용되는 타겟 데이터의 비율에 따른 성능 차이와 세 가지 딥 도메인 적응 기법 중 결함 예측성능이 가장 우수한 DANN 모델의 하이퍼파라미터 설정에 따른 성능 차이를 확인한다. 실험 결과, DANN 모델은 타겟 버전을 제외한 이전 버전의 모든 데이터를 소스로 사용할 때 성능이 가장 우수하다. 특히 DANN 모델의 은닉층 수를 3개로 설정할 때 가장 우수한 성능을 보였다. 또한 딥 도메인 적응 기법을 적용할 때, 학습 과정에 사용되는 타겟 데이터가 많을수록 우수한 성능을 보인다. 본 연구를 통해 향후 다양한 딥 도메인 적응 기법이 소프트웨어 교차 버전 결함 예측에 활용될 수 있을 것으로 기대한다.
군집 알고리즘과 NSP를 이용한 문서 단위 기계 번역 데이터 증강
http://doi.org/10.5626/JOK.2023.50.5.401
최근 전체 문서의 문맥을 파악해 자연스러운 번역을 하기 위한 문서 단위 기계 번역 연구가 활발히 이루어지고 있다. 문서 단위 기계 번역 모델의 학습을 위해서 문장 단위 기계 번역 모델과 마찬가지로 많은 양의 학습 데이터가 필요로 하지만 대량의 문서 단위 병렬 코퍼스를 구축하는 데 큰 어려움이 있다. 따라서 본 논문에서는 문서 단위 병렬 코퍼스 부족 현상을 개선하기 위해서 문서 단위 기계 번역에 효과적인 데이터 증강 기법을 제안한다. 실험 결과, 문맥이 없는 문장 단위 병렬 코퍼스에 군집 알고리즘과 NSP를 이용한 데이터 증강 기법을 적용하여 문서 단위 기계 번역의 성능을 데이터 증강 기법 적용 전에 비해 S-BLEU 3.0, D-BLEU 2.7 향상할 수 있었다.
다변량 시계열 Boundary 예측 및 신뢰도 평가 기법 기반 LNG 운반선 메인 엔진 시스템의 조기 이상 탐지
http://doi.org/10.5626/JOK.2023.50.5.429
최근 해양 및 조선 산업 전반에서 선박의 비정상적인 동작을 탐지하고 원인과 결과를 해석하기 위한 연구가 활발하다. 본 연구에서는 대형 조선소에서 건조한 LNG 운반선에서 추출되는 다변량 시계열 센서 데이터를 활용하여 메인 엔진 시스템의 조기 이상 탐지를 수행한다. 이상 동작의 조기 예측을 위해서 현재 시점의 센서 데이터로 미래의 값을 예측하는 과정이 필요하며 이 과정에서 실제 미래값과 예측값의 차이인 예측 잔차(Prediction residual)가 발생한다. 발생한 잔차는 조기 이상 탐지 결과에 중대한 영향을 미치므로 이를 보상하는 과정이 필요하다. 본 연구진은 시계열 예측 모델의 예측 상한(Upper boundary) 혹은 예측 하한(Lower boundary)을 학습할 수 있는 새로운 손실함수를 제안한다. 제안하는 손실함수로 학습된 시계열 예측 모델은 시계열 예측 잔차를 보상하여 조기 이상 탐지 알고리즘의 성능을 향상시킨다. 또한, 제안하는 신뢰도 모델은 시계열 예측 잔차와 신뢰도 잔차의 유사성을 활용하여 예측값의 실시간 신뢰도를 평가한다. 본 연구에서 제안한 조기 이상 탐지 알고리즘의 적용 결과, 제안한 예측 상한을 학습한 예측 모델은 MSE 손실함수로 학습된 베이스라인 예측 모델이 출력 가능한 예측값의 상한을 출력하며 베이스라인 모델의 미래 예측값이 실제 미래값보다 낮아서 임계값 기반의 이상 판별자가 예측 판별하지 못한 이상 동작을 판별할 수 있게 하였다. 실험 결과, 중요 평가 도구인 Recall에서 베이스라인 모델의 성능 0.4001 대비 제안한 기법의 성능 0.9532로 성능이 향상되었다. 이는 실제 운항에서 발생하는 다양한 운항 스타일에 강인한 조기 이상 탐지를 할 수 있다는 것을 의미한다.
노년층 우울감 예측을 위한 시맨틱 네트워크기반 도메인 지식과 그래프 컨볼루션 결합
http://doi.org/10.5626/JOK.2023.50.3.243
노년층의 우울감은 매해 3억명의 환자와 80만명의 자살자가 발생하는 전세계적인 문제로, 이동성과 밀접한 연관이 있는 생활패턴으로부터 조기 탐지하는 것이 중요하다. 센싱정보 기반의 그래프 컨볼루션 신경망이 유망하기는 하나, 복잡한 센싱정보 시퀀스로부터 표현되는 고수준 행동을 표현하는 것이 필요하다. 본 논문에서는 추가적인 전문가 지식을 활용하여 노년층의 일상생활을 구조화하는 시맨틱 네트워크를 구축하고, 저수준 센싱 로그 그래프와 상호 보완적으로 이용하기 위한 그래프 컨볼루션 모델을 제안한다. 제안하는 방법은 ㈜DNX가 제공한 69명의 독거노인에 대한 800시간의 실제 데이터로 교차실험한 결과, 최신의 딥러닝 모형 대비 최고의 우울감 예측 성능을 달성하였다. 특히 기존 모델 대비 28.86%의 성능 개선을 보임으로써 시맨틱 네트워크로의 추론과 그래프 컨볼루션 모델의 타당성을 검증하였다.
공정성과 정확성을 고려한 그래프 링크 예측 지표와 모델
양희윤, 강용훈, 김가형, 임지영, 윤수현, 김호승, 이지형
http://doi.org/10.5626/JOK.2023.50.2.179
여러 사회 분야에서 빅데이터와 컴퓨팅 기술의 발전을 기반으로 인공지능 기술의 도입이 활발히 이루어지고 있다. 하지만 빅데이터에 내재되어 있는 사회적인 차별요소로 인하여 인공지능의 예측이 편향된 경우가 많아 공정성 논란이 발생하고 있다. 특히, 소셜 네트워크 데이터를 다루기에 적당한 그래프 신경망에서는 유사한 노드들을 연결하려는 동질성 효과(Homophily effect) 때문에 성별, 종교 등과 같은 민감한 속성(Sensitive Attribute)에 편향된 예측이 이루어지기 쉬워서 공정성 문제가 더욱 심각하다. 이러한 공정성 문제를 해결하기 위하여, 공정한 모델 연구와 편향된 정도를 평가하기 위한 공정성 지표들이 제안되고 있다. 그러나 관련 연구들에서 각기 다른 지표를 사용해 공정성을 평가하기 때문에 통일된 기준이 없고, 모델의 정확성과 공정성이 상충관계(trade-off)에 있음을 고려하지 않아 두 성능 모두를 고려한 판단 지표가 필요하다. 본 논문은 공정성과 정확도의 관계를 고려한 지표인 Fairβ-metric을 제안하고, 이 지표에서 우수한 성능을 내는 그래프 링크 예측 모델 FairU를 제안한다.