검색 : [ keyword: 예측 ] (83)

개인신용정보 표본DB 기반의 대출 현황 분석 및 채무불이행 예측성능 비교

박소희, 최대선

http://doi.org/10.5626/JOK.2019.46.7.627

본 논문은 한국신용정보원의 신용정보 표본DB 시범서비스의 일환인 개인신용정보 표본DB를 이용하여 차주들의 성별, 연령, 기준월, 업권 등에 따른 대출 및 채무불이행 현황을 분석하고 통계자료를 제시한다. 또한, 국내외 은행은 대출 차입자의 채무불이행에 따른 손실을 최소화하는데 주목하고 있음에 따라 개인신용정보 표본DB를 사용하여 차주의 채무불이행을 예측 모델을 생성하고 성능을 평가한다. 특정 달의 채무불이행을 예측하기 위하여 직전 6개월의 차주의 정보 및 대출 정보를 가공하여 특징 데이터를 생성하고 Recurrent Neural Network와 기계학습 알고리즘을 사용하여 채무불이행 예측 모델을 생성하였다. 각 모델의 성능 측정 결과, Recurrent Neural Network가 채무불이행 차주에 대한 Recall이 0.96, AUC가 0.85로 가장 좋은 성능을 보였다.

순환신경망을 이용한 태양광 발전량 예측 모델 설계

김한호, 탁해성, 조환규

http://doi.org/10.5626/JOK.2019.46.6.506

스마트그리드는 태양광 발전을 포함한 신·재생에너지의 발전량을 예측하고 이를 기반으로 효율적인 전력 생산과 소비를 가능하게 한다. 기존 태양광 발전량 예측 연구들은 시계열에 뛰어난 순환신경망 기법들을 적용 및 비교한 연구가 거의 없다. 또한 학습에 사용되는 과거 데이터의 길이에 대한 고려가 없어 모델의 예측 성능이 떨어졌다. 본 연구에서는 임베디드 변수 선택 기법을 이용하여 태양광 발전에 영향을 미치는 요인을 찾아내고, 시계열 순환신경망 기법들(RNN, LSTM. GRU)에 다양한 과거 데이터 길이를 넣는 실험을 진행하였다. 이 과정에서 가장 뛰어난 성능을 보이는 예측 요인들을 찾고 예측 모델을 설계하였다. 설계한 태양광 발전량 예측 모델은 다른 변수 설정을 사용할 때와 비교하여 더욱 뛰어난 예측 성능을 보이는 것을 확인하였다. 또한 기존 연구들과의 비교를 통하여 본 연구에서 개발한 태양광 발전량 예측 결과가 더 뛰어난 성능을 보이는 것을 확인하였다.

사용자와 이동 객체의 움직임을 동시에 고려한 예측 질의처리 기법

윤소혜, 박석

http://doi.org/10.5626/JOK.2018.45.12.1302

최근 GPS가 탑재되어 있는 스마트폰이나 태블릿 PC 등 모바일 기기의 사용이 증가함에 따라, 다양한 센서로부터 얻은 대량의 데이터를 분석하는 것이 가능해졌다. 이에 따라 다양한 위치기반 서비스들을 효과적으로 제공하기 위해 공간 질의를 효율적으로 처리하는 기법에 대한 연구가 이루어지고 있다. 본 논문에서는 기존 예측 공간 질의처리 연구들에서 사용자의 이동을 고려하지 않아 원하는 질의 결과를 반환하지 못하는 한계점을 극복하기 위한 방법을 제시한다. 구체적으로, 도로 교통망 환경에서 사용자의 이동시간과 대기시간을 고려했을 때 도달 가능성이 높은 최적의 K개의 이동 객체를 반환하는 예측 질의를 효율적으로 처리하기 위한 알고리즘을 제안하며, 이 과정에서 사용자와 이동 객체의 움직임을 동시에 고려하여 이동 범위를 단계적으로 확장함으로써 불필요한 계산을 줄이는 기법을 적용한다. 또한 적절한 인덱스구조를 사용함으로써 정점과 이동 객체의 수가 많은 환경에서도 효율적으로 처리할 수 있도록 하였다. 마지막으로, 도로 교통망 환경에서의 실험을 통해 효율성 측면에서 유의미한 결과를 보였다.

온라인 게임에서 사용자의 이탈 예측 및 이탈 사유 분석

서은비, 우지영, 김휘강

http://doi.org/10.5626/JOK.2018.45.11.1124

온라인 롤플레잉 게임(MMORPG) 내 사용자들은 다양한 소셜 활동 성향을 보이며, 일부 사용자의 경우 혼자 게임을 즐기는 성향을 나타내기도 한다. 본 논문에서는 사용자가 소속된 길드의 특성을 소셜 활동 및 소속감 정도에 따라 분류하고, 분류된 각 그룹의 이탈율 및 이탈원인을 분석한다. 또한 소셜활동 성향으로 분류된 각 사용자 그룹을 대상으로 게임 참여도 변동 추이를 측정하여 이탈을 예측하는 프레임워크를 제안한다. 비슷한 성향으로 분류된 각 그룹의 사용자는 이탈 직전에 유사한 행동 패턴을 보일 수 있으므로, 이를 기준으로 이탈 사용자와 비이탈 사용자의 패턴을 분류할 수 있다. 엔씨소프트의 대표 MMORPG인 아이온 데이터를 대상으로 본 모델을 테스트하였으며, 평균 약 75%의 정밀도를 보여주었다.

An Effective Comparative Framework for Cross-Project Defect Prediction Based on the Feature Selection Technique

Duksan Ryu, Jongmoon Baik

http://doi.org/10.5626/JOK.2018.45.7.635

소프트웨어 결함예측(SDP)은 결함취약모듈에 대한 테스팅 리소스를 최적으로 할당하도록 돕는다. 내부프로젝트 결함예측(WPDP)과 달리, 파일럿 프로젝트의 예처럼, 과거 프로젝트에서 수집한 데이터가 없는 경우가 존재한다. 이런 경우, 다른 프로젝트의 데이터를 사용하는 교차프로젝트 결함예측(CPDP)이 적용될 수 있다. 관련성이 없거나 중복된 정보가 있는 경우 결함예측 성능이 저하 될 수 있는데, 이를 해결하기 위해 다양한 특징선택 기술이 제안되었다. 현재까지 CPDP에 효과적인 특징선택 기술을 식별하는 연구는 없으며, 우리는 CPDP에 높은 예측성능을 얻기 위해 특징선택 기법을 적용한 비교 프레임워크를 제시한다. 3개의 CPDP 모델들과 1개의 WPDP 모델에 대해, 우리는 특징 부분집합 평가자와 특징 순위 기법에 기반한 8개의 기존 특징선택 기법을 비교한다. 최고의 성능을 보인 특징들이 선택된 후, 분류기들이 구축, 테스트되고, 통계적 유의성 검증과 영향도 크기 검증기법을 활용하여 평가된다. 근접 기반 하이브리드 인스탄스 선택(HISNN)이 다른 CPDP 모델들보다 우수하고 WPDP와는 동등하였다. 비교 결과는 다른 분포, 클래스 불균형, 특징선택이 고성능의 CPDP 모델을 얻기 위해 고려되어야 함을 보이고 있다.

심층학습 기반의 Predictor-Estimator 모델을 이용한 영어-한국어 기계번역 품질 예측

김현, 신재훈, 이원기, 조승우, 이종혁

http://doi.org/10.5626/JOK.2018.45.6.545

기계번역 품질 예측은 정답번역문의 참고 없이 기계번역문장의 번역품질을 예측하는 것을 말하며, 최근 들어 기계번역분야에서 중요성이 강조되고 있다. 현재까지 영어-유럽어를 대상으로 기계번역 품질 예측 연구들이 진행되어 왔으며, 영어-한국어에 대해 기계번역 품질 예측을 시도한 사례가 없었다. 본 논문에서는 영어-한국어 기계번역 품질 예측을 위한 학습 데이터를 구축하고, 심층학습 기반의 모델을 적용하여 영어-한국어에 대한 기계번역 품질 예측을 수행한다. 학습 데이터 생성을 위해서는 기계번역문장에 기반한 새로운 정답번역문을 만드는 과정이 필요하며, 본 논문에서는 자유로운 어순과 다양한 형태가 가능한 한국어 문장의 특징을 고려하는 새로운 정답번역문을 만들기 위한 가이드라인을 제시한다. 또한 학습 데이터가 편향되는 문제를 완화하여 학습 데이터를 구축한다. 본 연구에서 구축한 학습데이터와 심층학습 기반의 모델을 이용한 실험 결과, 영어-한국어 기계번역 품질 예측이 잘 수행됨을 확인하였다.

생활 패턴 인지를 위한 이벤트 연산 기반 예측 모델 학습 기법

배석현, 방성혁, 박현규, 전명중, 김제민, 박영택

http://doi.org/10.5626/JOK.2018.45.5.466

기계 학습 알고리즘의 발전에 따라 다양한 영역의 데이터에 대한 분석 및 결과를 예측하는 연구들이 진행되고 있다. 그러나 기존의 데이터 의존적인 기계 학습 기반의 의도 인지 방법론은 노이즈 처리에 대한 어려움이 존재하고, 복합적으로 발생할 수 있는 행위 의도에 대한 인지에서 한계점을 가진다. 본 한계점을 극복하기 위해 본 논문에서는 이벤트 연산(Event Calculus)을 기반으로 3단계의 행위 의도인지 방법론을 제안한다. 첫 번째 단계는 시퀀스 데이터가 어떤 의도인지를 판별하는 의도 추론 단계이다. 두 번째 단계는 새롭게 추론된 행위 의도를 기반으로 이전부터 유지됐던 행위 의도와의 병행 가능 여부를 판단하는 충돌 해결(Conflict Resolution) 단계이다. 마지막으로 많은 노이즈로 인해 발생되는 오류를 추론된 행위 의도들에 반영하는 노이즈 감소(Noise Reduction) 단계로 진행된다. 이벤트 연산 기법에 대한 성능 평가를 위해 실제 수집한 데이터를 재구축한 혼합 가우시안 모델과 휴리스틱 규칙 기반의 범용 데이터 생성 기법을 제안한다. 5개의 의도로 이루어진 약 13시간의 시퀀스 데이터 300개를 사용하여 이벤트 연산의 성능을 측정하였고, 각 의도에 대해 이벤트 연산의 예측 결과와 실제 확률 모델이 평균 89.3%의 일치
도를 보였다.

돌연변이 단백질에 대한 사전 학습 대규모 언어 모델 기반 약물-표적 결합 친화도 예측

송태웅, 김진혁, 박현준, 최종환

http://doi.org/10.5626/JOK.2025.52.6.539

신약 개발은 높은 비용과 긴 시간이 소요되며, 특히 단백질 돌연변이가 약물-표적 결합 친화도에 미치는 영향을 정량적으로 예측하는 것은 중요한 과제이다. 기존 연구에서는 아미노산 서열 처리를 위해 LSTM과 트랜스포머 모델이 활용되었으나, LSTM은 장기 의존성 문제, 트랜스포머는 높은 연산 비용의 한계를 가진다. 반면, 사전 학습된 거대 언어 모델(pLLM)은 긴 시퀀스 처리에 강점을 가지지만, 프롬프트 기반 접근만으로는 정확한 결합 친화도 예측이 어렵다. 본 연구에서는 pLLM을 활용하여 단백질 구조 데이터를 임베딩 벡터로 변환하고, 별도의 머신러닝 모델로 결합 친화도를 예측하는 방법을 제안한다. 실험 결과, 제안된 방법은 기존 LSTM 및 프롬프트 접근법보다 우수한 성능을 보였으며, 돌연변이 특이적 예측에서도 낮은 RMSE와 높은 PCC를 기록하였다. 또한, pLLM 모델의 양자화에 따른 성능 분석을 통해 낮은 연산 비용으로도 충분한 성능을 발휘할 수 있음을 확인하였다.

단일 분자화합물의 폐 발암성 예측을 위한 그래프 신경망 접근법

송윤주, 유선용

http://doi.org/10.5626/JOK.2025.52.6.482

암은 전 세계적으로 매년 수백만 명의 사망자를 초래하는 주요 질환 중 하나로, 특히 폐암은 2022년 한국에서 암 중 가장 높은 사망률을 기록했다. 이에 따라 폐암을 유발하는 화합물에 대한 연구가 필수적이며, 본 연구는 기존 기계학습 및 딥러닝 방법의 한계를 극복하고, 그래프 신경망을 활용하여 폐암 유발 가능성을 예측하는 새로운 접근방식을 제안하고 평가했다. 화합물 발암성 데이터베이스인 CPDB, CCRIS, IRIS, T3DB의 SMILES(Simplified Molecular Input Line Entry System) 정보를 기반으로 분자의 구조와 화학적 성질을 그래프 데이터로 변환해 학습했으며, 제안된 모델은 다른 모델 대비 우수한 예측 성능을 보였다. 이는 폐암 예측에 효과적인 도구로서 그래프 신경망의 잠재력을 입증하며, 향후 암 연구와 치료 개발에 중요한 기여를 할 수 있음을 시사한다.

전통적 탐색을 넘어서: SIMD 최적화 기반 Learned Index 오차 보정 탐색

오여진, 김나경, 최종무, 유시환

http://doi.org/10.5626/JOK.2025.52.5.363

기계 학습 기반의 Learned Index는 전통적 인덱스 기법의 한계를 극복하기 위해 등장했다. 본 논문에서는 읽기 전용 RMI와 수정 가능한 ALEX의 탐색 성능을 분석하고, 오차 보정 과정에서 발생하는 오버헤드를 줄이기 위한 SIMD 기반 최적화 기법을 제안한다. Learned Index는 키의 분포를 학습해 예측과 오차 보정의 두 단계로 탐색을 수행하는데, 오차 보정이 전체 탐색 시간의 최대 80%를 차지할 수 있음이 확인되었다. RMI에서는 오차가 클 때 탐색 범위를 빠르게 줄이는 SIMD Branchless Binary Search, 작을 때 모델 예측 기반의 SIMD Linear Search가 효과적이었다. 반면, ALEX는 일정한 오차 범위를 유지하는 특성으로 인해 단순한 SIMD Linear Search가 가장 효율적이었다. 이를 통해 데이터셋의 오차 범위, 인덱스 크기 및 밀도에 따라 적절한 탐색 알고리즘을 선택하는 것이 성능 최적화에 중요함을 제시한다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr