디지털 라이브러리[ 검색결과 ]
An Effective Comparative Framework for Cross-Project Defect Prediction Based on the Feature Selection Technique
http://doi.org/10.5626/JOK.2018.45.7.635
소프트웨어 결함예측(SDP)은 결함취약모듈에 대한 테스팅 리소스를 최적으로 할당하도록 돕는다. 내부프로젝트 결함예측(WPDP)과 달리, 파일럿 프로젝트의 예처럼, 과거 프로젝트에서 수집한 데이터가 없는 경우가 존재한다. 이런 경우, 다른 프로젝트의 데이터를 사용하는 교차프로젝트 결함예측(CPDP)이 적용될 수 있다. 관련성이 없거나 중복된 정보가 있는 경우 결함예측 성능이 저하 될 수 있는데, 이를 해결하기 위해 다양한 특징선택 기술이 제안되었다. 현재까지 CPDP에 효과적인 특징선택 기술을 식별하는 연구는 없으며, 우리는 CPDP에 높은 예측성능을 얻기 위해 특징선택 기법을 적용한 비교 프레임워크를 제시한다. 3개의 CPDP 모델들과 1개의 WPDP 모델에 대해, 우리는 특징 부분집합 평가자와 특징 순위 기법에 기반한 8개의 기존 특징선택 기법을 비교한다. 최고의 성능을 보인 특징들이 선택된 후, 분류기들이 구축, 테스트되고, 통계적 유의성 검증과 영향도 크기 검증기법을 활용하여 평가된다. 근접 기반 하이브리드 인스탄스 선택(HISNN)이 다른 CPDP 모델들보다 우수하고 WPDP와는 동등하였다. 비교 결과는 다른 분포, 클래스 불균형, 특징선택이 고성능의 CPDP 모델을 얻기 위해 고려되어야 함을 보이고 있다.
돌연변이 단백질에 대한 사전 학습 대규모 언어 모델 기반 약물-표적 결합 친화도 예측
http://doi.org/10.5626/JOK.2025.52.6.539
신약 개발은 높은 비용과 긴 시간이 소요되며, 특히 단백질 돌연변이가 약물-표적 결합 친화도에 미치는 영향을 정량적으로 예측하는 것은 중요한 과제이다. 기존 연구에서는 아미노산 서열 처리를 위해 LSTM과 트랜스포머 모델이 활용되었으나, LSTM은 장기 의존성 문제, 트랜스포머는 높은 연산 비용의 한계를 가진다. 반면, 사전 학습된 거대 언어 모델(pLLM)은 긴 시퀀스 처리에 강점을 가지지만, 프롬프트 기반 접근만으로는 정확한 결합 친화도 예측이 어렵다. 본 연구에서는 pLLM을 활용하여 단백질 구조 데이터를 임베딩 벡터로 변환하고, 별도의 머신러닝 모델로 결합 친화도를 예측하는 방법을 제안한다. 실험 결과, 제안된 방법은 기존 LSTM 및 프롬프트 접근법보다 우수한 성능을 보였으며, 돌연변이 특이적 예측에서도 낮은 RMSE와 높은 PCC를 기록하였다. 또한, pLLM 모델의 양자화에 따른 성능 분석을 통해 낮은 연산 비용으로도 충분한 성능을 발휘할 수 있음을 확인하였다.
단일 분자화합물의 폐 발암성 예측을 위한 그래프 신경망 접근법
http://doi.org/10.5626/JOK.2025.52.6.482
암은 전 세계적으로 매년 수백만 명의 사망자를 초래하는 주요 질환 중 하나로, 특히 폐암은 2022년 한국에서 암 중 가장 높은 사망률을 기록했다. 이에 따라 폐암을 유발하는 화합물에 대한 연구가 필수적이며, 본 연구는 기존 기계학습 및 딥러닝 방법의 한계를 극복하고, 그래프 신경망을 활용하여 폐암 유발 가능성을 예측하는 새로운 접근방식을 제안하고 평가했다. 화합물 발암성 데이터베이스인 CPDB, CCRIS, IRIS, T3DB의 SMILES(Simplified Molecular Input Line Entry System) 정보를 기반으로 분자의 구조와 화학적 성질을 그래프 데이터로 변환해 학습했으며, 제안된 모델은 다른 모델 대비 우수한 예측 성능을 보였다. 이는 폐암 예측에 효과적인 도구로서 그래프 신경망의 잠재력을 입증하며, 향후 암 연구와 치료 개발에 중요한 기여를 할 수 있음을 시사한다.
풀업(Pull-up) 기동을 고려한 Diffusion 기반 비행체 궤적 예측 생성 모델
http://doi.org/10.5626/JOK.2025.52.3.241
본 논문은 비행체의 풀업(pull-up) 기동을 고려한 비선형 궤적 예측을 목표로 하여, 시계열 다변량 데이터를 처리하는 새로운 모델을 제안한다. 이를 위해 최신 생성형 인공지능 모델인 CSDI (Conditional Score-based Diffusion Models for Imputation)를 기반으로 비행체의 궤적을 예측하였다. 특히 풀업 기동 여부에 따라 비행체의 항행 거리와 모양이 크게 달라지므로, 풀업이 있는 데이터와 풀업이 없는 데이터를 분리하여 각각의 모델을 학습하고 예측하였다. 실험 결과, 모델이 실제 궤적과 매우 유사한 궤적으로 예측하였으며 MAE, RMSE, CRPS 지표에서 기존 딥러닝 모델보다 높은 성능을 기록하였다. 본 연구는 비행체 궤적 예측의 정확성을 높였을 뿐만 아니라, 향후 Classifier Diffusion 모델과의 결합을 통해 더 정교한 예측을 가능하게 할 수 있음을 제시한다.
Graph Neural Network 통합 및 어텐션 기반 랜덤워크 알고리즘을 이용한 약물 독성 예측
http://doi.org/10.5626/JOK.2025.52.3.234
전통적인 신약 개발의 고비용 및 긴 개발 기간으로 인해, 인공지능 기반 신약 개발이 주목받고 있다. 특히, 약물의 독성을 사전에 평가하기 위한 인공지능 기반 독성 예측의 중요성이 강조되고 있다. 본 연구에서는 약물 독성 예측을 위한 Integrated GNNs and Attention Randon Walk (IG-ARW) 모델을 제안한다. 제안한 방법은 다양한 Graph Neural Network (GNN) 모델을 통합하고, 그래프 특징을 정밀하게 추출하기 위해 랜덤워크 전이 확률을 어텐션 기법을 통해 계산한다. 이후, 랜덤워크를 진행하여 노드 단 특징과 그래프 단 특징을 추출하고, 약물의 독성을 예측한다. IG-ARW의 예측 정확도는 세 가지 벤치마크 데이터셋을 이용하여 평가되었으며, 각 데이터셋에 대해 0.8315, 0.8894, 0.7476의 AUC 값을 보이며 우수한 성능을 입증하였다. 특히, 제안한 모델은 독성 예측뿐만 아니라 다른 약물 특성 예측에도 높은 효용성을 보였다.
Gated Tab Transformer를 사용한 향상된 소프트웨어 결함 예측
http://doi.org/10.5626/JOK.2025.52.3.196
소프트웨어 결함 예측(SDP)은 소프트웨어 품질과 신뢰성을 확보하는 데 중요한 역할을 한다. 전통적인 기계 학습 및 딥 러닝 모델이 SDP에 널리 사용되었지만, 최근 자연어 처리 기술의 발전은 소프트웨어 공학 작업에 트랜스포머 기반 모델을 적용할 수 있는 가능성을 열었다. 본 논문에서는 Gated Tab Transformer(GTT)를 SDP에 적용하여 그 효과를 평가하였다. 15개의 소프트웨어 결함 데이터셋을 사용하여 실험을 진행하고, 최신 기계 학습 및 딥 러닝 모델과 비교한다. 실험 결과, GTT는 리콜, 균형, AUC 측면에서 각각 42.1%, 10.93%, 7.1%의 최첨단 머신 러닝 성능을 능가하는 것으로 나타났다. Cohen’s d 분석 결과, GTT는 이러한 성능 지표에서 큰 효과 크기 또는 중간 수준의 효과 크기를 나타냈다. 추가로, 하이퍼파라미터 변동이 성능에 미치는 영향을 분석한 소거 연구를 통해 GTT의 성능을 평가하였다. GTT의 뛰어난 성능은 SDP 문제 해결에 기여할 수 있으며, 이를 통해 테스트 자원의 효율적인 할당과 소프트웨어 품질 개선이 가능할 것으로 기대된다.