검색 : [ author: In-Woo Hwang ] (1)

거리 기반 데이터 레이블링을 적용한 lncRNA-질병 연관성 예측 모델

김재인, 윤승원, 황인우, 이규철

http://doi.org/10.5626/JOK.2023.50.5.420

lncRNA는 200개 이상의 뉴클레오타이드로 이루어져 있는 비암호화 RNA이다. 비암호화 RNA는 단백질을 직접 생성하지 못해 중요도가 낮은 물질로 여겨져 왔으나 비암호화 RNA가 단백질 발현을 조절하는 역할을 하는 것으로 밝혀지며 최근 많은 연구가 진행되고 있다. lncRNA의 비정상적인 발현은 다양한 질병의 원인이 되며 lncRNA와 질병의 연관성을 예측함으로써 초기 질병의 진단 또는 질병 예방에 도움을 줄 수 있다. 한편 생물학적 데이터의 연관성을 예측하는 연구는 직접적인 실험으로 진행할 경우 오랜 시간과 큰 비용이 들어가므로 이러한 문제점을 계산적인(computational) 방법을 적용하여 보완하는 것이 중요하다. 따라서 본 연구에서는 LSTM(Long Short-Term Memory)을 기반으로 한 lncRNA-질병 연관성 예측 모델을 제안한다. 또한, 기존 연구에서는 임의로 네거티브 샘플을 생성하여 데이터에 불확실성이 존재하므로 본 연구에서는 이런 불확실성을 해결하는 거리를 기반으로 한 데이터 레이블링 방법 역시 제안한다. 본 연구에서 제시한 데이터 레이블링 방법과 분류 모델을 통해 최고 AUC 0.97을 달성하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr