검색 : [ keyword: 예측 ] (83)

데이터-기반 소프트웨어 신뢰도 예측을 이용한 소프트웨어 신뢰도 모델 선택

이낙원, 류덕산, 조일훈, 송재근, 백종문

http://doi.org/10.5626/JOK.2022.49.6.443

다양한 유형의 실패 데이터에 대해서 모두 최적의 성능을 보이는 모델은 없다는 문제를 해결하기 위해서 모델 선택 방법과 데이터-기반 신뢰도 예측 방법이 제안되었다. 그러나 모델 선택 방법은 여전히 모든 유형의 실패 데이터에 대해서 최적의 모델을 선택할 수는 없으며 데이터-기반 방법은 예측 결과로부터 얻을 수 있는 신뢰도 관련 척도가 한정적인 문제가 있다. 본 연구의 목표는 신뢰도를 정확하게 예측하면서도 다양한 신뢰도 관련 척도를 얻는 것이다. 이를 위해 데이터-기반 신뢰도 예측 결과를 이용하여 모델을 선택하는 기법을 제안한다. 이 기법은 과거 실패 데이터로부터 모델 선택 방법과 데이터-기반 방법 중 어떤 방법을 사용할지 선정한다. 데이터-기반 방법을 선정하면 데이터-기반 방법으로 예측한 값으로 증강된 데이터를 만들고 가장 적합한 신뢰도 모델을 선택한다. 제안 기법의 예측 성능을 평가한 결과 예측 오차의 중위 값이 비교대상 기법들 중 가장 정확한 기법에 비해 21% 작은 것을 확인했다.

소프트웨어 결함 예측에 적합한 생성적 적대 신경망 모델 식별 연구

최지원, 이재욱, 류덕산, 김순태

http://doi.org/10.5626/JOK.2022.49.1.52

소프트웨어 결함 예측은 결함이 야기될 모듈을 식별해 한정된 품질 보증 자원을 효과적으로 배분하는데 도움을 준다. 소프트웨어 결함 데이터는 비결함 인스턴스의 수가 결함 인스턴스의 수보다 많은 클래스 불균형 문제를 겪는다. 대부분의 기계 학습에서 특정 클래스의 인스턴스 비율이 한쪽으로 치우치게 되면 결함 예측 성능에 부정적인 영향을 끼친다. 따라서 본 연구에서는 생성적 적대 신경망 모델(Generative Adversarial Network, GAN)을 사용해 클래스 불균형 문제를 해결하고, 결함 예측 성능 향상을 목표로 한다. 이를 위해, 본 연구에서는 여러 종류의 GAN 모델 중 소프트웨어 결함 예측에 적합한 모델은 무엇인지 비교하고, 관련 연구에서 적용하지 않았던 GAN 모델들의 적용성 여부를 확인한다. 본 연구에서는 이미지 생성에 최적화되어 있는 Vanilla-GAN(GAN)과 Conditional GAN(cGAN), Wasserstein GAN(WGAN) 모델을 소프트웨어 결함 예측 데이터에 적합하게 개조한 후, 개조한 GAN과 cGAN, WGAN, Tabular GAN(TGAN), Modeling Tabular data using Conditional GAN(CTGAN)의 성능을 비교 실험한다. 실험 결과, CTGAN 모델이 소프트웨어 결함 예측 데이터에 적합함을 보인다. 또한 CTGAN의 하이퍼파라미터 중 결함 발견율(Recall)을 높이고, 결함 오보율(Probability of False Alarm, PF)를 낮추는 하이퍼파라미터 값은 무엇인지 민감도 분석을 수행한다. 실험 결과, 데이터셋에 따라 하이퍼파라미터를 조정해야 함을 보였다. 우리의 제안한 기법이 소프트웨어 결함 예측의 성능을 향상시켜 한정된 자원을 효과적으로 할당하는데 도움이 될 것이라고 기대한다.

설명 가능한 KOSPI 증감 예측 딥러닝 모델을 위한 Layer-wise Relevance Propagation (LRP) 기반 기술적 지표 및 거시경제 지표 영향 분석

이재응, 한지형

http://doi.org/10.5626/JOK.2021.48.12.1289

주식 예측 분야에서 인공지능은 정확도를 향상시키는 방향의 연구가 주를 이룬다. 하지만 금융분야에서는 모델의 성능뿐만 아니라 의사결정에 대한 신뢰성과 투명성, 공평성이 보장되어야 한다. 이에 본 논문에서는 주식 예측에 많이 사용되는 거시경제 지표와 기술적 지표를 입력 변수로 선정해 모델을 학습시키고 이 모델의 설명가능성을 줄 수 있는 LRP 기법을 제안한다. 또한 사용자 입장에서 직관적으로 모델 결과를 활용할 수 있도록 KOSPI 주가 종가의 전날 대비 증감으로 문제 정의를 간소화하였다. 적용시킨 LRP를 통해 나온 분석의 결과가 실제 유의미한 결과인 것을 보이기 위해 비교 실험을 진행하였다. 실험 결과 LRP를 통해 선정한 변수들로 데이터를 학습한 모델이 기존의 모델보다 성능이 우수함을 보였다. 또한, 각 변수들이 예측값에 긍정적 영향을 주는 경향성에 대해 분석하여 LRP의 분석 결과가 유의미함을 보였다.

상위 클래스 정보와 사전 학습된 언어 모델을 이용한 지식 그래프 완성 모델

장대식, 고영중

http://doi.org/10.5626/JOK.2021.48.11.1228

링크 예측은 지식 그래프에서 누락된 링크를 추론하는 것을 목표로 한다. 최근 지식 그래프를 완성하기 위해 다양한 링크 예측 모델이 연구되었고 의미 있는 결과를 얻었다. 그러나 기존 모델은 학습 트리플의 내재적 정보만 사용하여 학습하기 때문에 과적합 되는 문제가 있다. 이러한 문제를 해결하기 위해, 우리는 개체의 추상적 정보를 학습할 수 있는 상위 클래스 예측과 링크 예측을 multi-task learning 방법으로 수행하는 "상위 클래스 정보와 사전 학습된 언어 모델을 이용한 지식 그래프 완성 모델(HIP)"을 제안한다. HIP의 상위 클래스 예측 작업은 트리플의 문맥적 정보뿐만 아니라 개체의 추상적 정보 학습을 통해 같은 상위 클래스 정보를 갖는 개체들이 비슷한 임베딩을 가지며 개체의 일반적인 정보를 학습한다. 실험 결과 KG-BERT 및 MTL-KGC 모델에 비해 Hits@10과 Mean Rank (MR)에서 의미 있는 성능 향상을 보였다.

연속적인 시계열 예측을 위한 디노이징 다변량 시계열 모델링

홍정수, 박진욱, 이지은, 김경훈, 홍승균, 박상현

http://doi.org/10.5626/JOK.2021.48.8.892

시계열 예측 연구 분야는 시계열 내의 주기성을 통해 미래의 시점을 예측하는 연구이다. 산업 환경에서는 미래의 연속적인 시점 예측을 통한 의사 결정이 중요하기 때문에 시계열의 연속 예측이 필요하다. 하지만 연속 예측은 이전 시차의 예측 값에 종속적이어서 불안정성이 높기 때문에 전통적인 시계열 예측은 한 시점에 대한 통계적 예측을 한다. 이를 해결하기 위해 본 연구에서는 다변량 시계열에 대해 연속적인 시점을 예측하는 인코더-디코더 기반의 ‘DTSNet’을 제안한다. DTSNet은 안정적인 예측을 위해 위치 인코딩을 적용한 표현형을 사용하고, 새로운 디노이징 훈련법을 제안한다. 또한, 장기 의존성을 해결하고 복잡한 주기성을 모델링하기 위해 이중 주의 기제 기법을 제안하고, 변수 별 특화 모델링을 위해 멀티 헤드 신경망을 사용한다. 본 모형의 성능 향상을 검증하기 위해 베이스라인 모형들과 비교 분석하고, 구성 요소 및 디노이징 강도 실험 등의 비교 실험을 통해 제안하는 방법론을 입증한다.

객체 탐지에서의 효율적인 예측 박스 회귀 학습을 위한 둘레 기반 IoU 손실함수

김현준, 최동완

http://doi.org/10.5626/JOK.2021.48.8.913

일반적으로 객체 탐지를 위한 신경망을 학습시키기 위해서는 클래스 분류와 예측 박스의 회귀 손실 함수를 결합 학습한다. 하지만 기존 회귀 손실 함수는 예측 바운딩 박스와 타깃 박스의 겹침을 측정하는 데 쓰이는 IoU와의 상관관계가 크지 않아 객체 탐지에 그대로 사용하기에는 한계가 있다. 이에 회귀의 최적화를 돕기 위한 페널티 항(penalty term)을 회귀 손실 함수인 IoU Loss에 추가하는 연구가 진행되었다. 하지만 해당 페널티 항으로는 박스들이 하나의 박스가 다른 박스를 포함하거나 중간 점이 겹치면 값이 0이 되는 경우가 있어서 IoU가 최적화되는 데 한계가 있다. 이를 보완하기 위해 본 논문에서는 예측박스와 타깃 박스를 감싸는 영역과 타깃 박스와 예측 박스 각각의 둘레 차이를 이용한 새로운 회귀 손실함수, Perimeter IoU Loss를 제안한다. 제안한 방법을 적용한 결과 여러 객체 탐지 모델을 이용한 실험과 모의실험을 통하여 Perimeter IoU Loss가 다른 회귀 손실 함수보다 더 높은 정확도를 보임을 확인하였다.

상관 계수를 활용한 이종 결함 예측의 학습 프로젝트 선택 기법

김은섭, 백종문, 류덕산

http://doi.org/10.5626/JOK.2021.48.8.920

소프트웨어 결함 예측은 과거의 결함정보를 바탕으로 개발 중인 소프트웨어의 결함을 예측하는 기술이다. 최근에는 서로 다른 메트릭을 가진 프로젝트 사이에서도 기술을 적용하기 위해 이종 결함예측이 떠오르고 있다. 지금까지 이종 결함 예측은 한 쌍의 학습 및 타겟 프로젝트가 주어졌을 때 성능을 높이는 것에 초점을 맞춰왔다. 그러나 실제 개발에서는 하나의 타겟 프로젝트에 대해 여러 학습 후보 프로젝트가 존재하므로 어떤 것으로 모델을 학습해야 최적의 결과를 얻을지 알 수 없다. 본 연구에서는 이러한 문제를 해결하기 위해 상관 계수를 활용한 학습 프로젝트 선택 기법을 제안한다. 메트릭 매칭 후 대응하는 데이터 간 상관 계수의 평균이 가장 높은 프로젝트를 학습 프로젝트로 선택한 결과, 무작위 선택과 비교하여 예측 성능이 증가했다. 또한, 100개 미만의 인스턴스를 학습 후보에서 제외하여 성능을 향상할 수 있었다. 이를 통해 실제 개발에서 결함이 존재하는 모듈을 더 정확히 예측할 수 있다.

기계학습을 활용한 경기도 산업단지 미세먼지 예측

원동준, 김선겸, 김영훈, 송규원

http://doi.org/10.5626/JOK.2021.48.7.764

최근 미세먼지의 다양한 예측 모델들을 통한 연구가 이루어지고 있지만 현재 PM10 농도 예측에 치중되어 있어 PM2.5 농도를 예측할 수 있는 모델 개발이 필요한 상황이다. 본 논문은 최근 약 2년간의 반월시화국가산업단지의 대기질, 기상, 교통 데이터를 수집하여 미세먼지(PM2.5)와 미세먼지(PM10), 이산화황(SO₂), 이산화질소(NO₂), 일산화탄소(CO), 오존(O₃), 온도, 습도, 풍향, 풍속, 강수량, 도로 구간별 차량속도 변수간의 상관관계 분석 및 회귀분석을 통해 변수의 유의성을 파악하고, 산업단지의 시간대별 PM2.5를 예측하는 데 활용하였다. 인공지능 기반의 Random Forest, XGBoost, LightGBM, Deep neural network과 Voting 모델을 통해 산업단지의 시간별 PM2.5 농도를 예측하고, RMSE를 기준으로 비교분석을 진행하였다. 예측 결과 RMSE는 각각 6.27, 6.41, 6.22, 6.64, 6.12로 각 모델 모두 에어코리아에서 예측하는 모델의 10.77에 비해 매우 높은 성능을 보여주었다.

유전자 임베딩을 이용한 암 예후 예측 방법

김현지, 안재균

http://doi.org/10.5626/JOK.2021.48.7.842

암의 예후와 관련이 있는 유전자를 식별하고 이를 이용하여 암환자의 예후를 예측하는 것은 환자에게 효과적인 치료방법을 제공하는데 기여하는 바가 크다. 유전자 발현 데이터를 이용하여 예후 관련 유전자를 탐색하거나 암의 예후를 예측하기 위한 다양한 연구방법들이 제시되었으며, 최근에는 딥러닝을 비롯한 머신러닝 기법들이 집중적으로 연구되고 있다. 하지만 유전자 발현량 데이터에 기계학습 방법을 적용하는 것은 사용 가능한 샘플의 수가 적고 유전자의 수가 많다는 근본적인 문제가 있다. 본 연구에서는 유전자 네트워크 데이터를 추가적으로 사용하여, 많은 수의 무작위 유전자 경로를 학습 데이터 사용함으로써 적은 수의 샘플이라는 문제를 보완하고자 한다. 본 연구에서 제시하는 방법을 이용하여 5가지 암에 대한 유전자 발현 데이터와 유전자 네트워크를 이용하여 예후 특이적 유전자를 식별하고 환자의 예후를 예측한 결과, 다른 기존 방법들과 비교하여 높은 정확도로 예측을 하는 것을 확인할 수 있었으며, 적은 샘플을 사용한 예측에서 높은 성능을 확인할 수 있었다.

인-메모리 분석 프레임워크의 캐시 성능 이득 예측

정민섭, 한환수

http://doi.org/10.5626/JOK.2021.48.5.479

인-메모리 데이터 분석 프레임워크에서 성능 개선을 위해 계산된 중간값을 캐시하는 기능을 제공한다. 애플리케이션에서 보다 효과적으로 캐싱하기 위해서는 이로 인한 성능 이득이 고려되어야 한다. 기존 프레임워크는 분산 작업 수준의 실행 시간만을 측정하기에 애플리케이션의 캐시 성능 이득을 예측하기에는 제약이 있다. 본 논문에서는 기존의 task 수준 실행 시간 측정법을 병합한 연산자 수준의 시간 측정법과 인풋 데이터 크기에 따라 함수 비용을 예측하는 모델을 제안한다. 또한, 제안한 모델과 애플리케이션의 실행 흐름을 기반으로 캐싱된 데이터셋으로 인한 성능 이득 예측법도 제안한다. 제안한 모델과 예측법은 캐시 성능 이득을 고려한 캐싱 최적화의 기회를 제공한다. 제안한 연산비용모델은 10x 인풋 데이터에서 평균 7.3%의 오차를 보였으며, 모델을 통해 예측한 성능 이득은 실제 성능 이득과 24% 이내의 차이를 보였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr