디지털 라이브러리[ 검색결과 ]
Improvement of Machine Learning-Based Event-Related Desynchronization Accuracy
http://doi.org/10.5626/JOK.2023.50.12.1131
생체인식 분야는 빠르고 정확한 신원 확인을 제공하는 것으로 알려졌다. 최근에는 운동 상상 (MI) 뇌파가 각광받고 이에 따른 이벤트 관련 비동기화 (ERD) 신호가 함께 등장했다. 이 연구의 목표는 사용자 간 분류 정확도를 향상시키기 위해 기존의 ERD 모델을 최적화하는 것이다. 대표적인 MI 특징 추출로 알려진 공통 공간 패턴(CSP)과 ERD를 사용했고, 나이브베이즈 (NB)로 분류했다. SVM의 이진 분류 결과의 신뢰성을 평가하기 위해, 동일 오류율(EER)과 곡선 아래의 면적(AUC) 이 사용되었다. 제안된 ERD 모델은 CSP와 전통적인 ERD에 비해 뛰어난 정확도를 보였으며, 각각 86.4%, 86.3%, 및 63%의 분류 정확도를 달성했다. 이러한 우수성을 바탕으로 제안된 ERD 방법이 향후 생체인식 마커로서 적합할 것으로 기대된다.
심층 신경망과 랜덤포레스트를 이용한 유전암 관련 단일 염기 변이의 병원성 예측
http://doi.org/10.5626/JOK.2023.50.9.746
최근 유전자 검사의 보급으로 인해 개인의 유전자 변이를 탐색하고, 병원성 정보를 통해 유전적 질병을 진단 및 예방하는 것이 가능해졌다. 하지만, 밝혀진 변이 중 병원성 정보가 있는 것의 수는 상당히 적다. 이러한 문제점을 해결하기 위해 기계학습을 통해 변이의 병원성을 예측하는 방법이 제안되었다. 본 논문에서는 심층 신경망과 기존 연구들에서 널리 사용되었던 랜덤포레스트 및 로지스틱회귀를 변이 병원성 예측에 적용 및 비교한다. 실험 데이터는 유전암과 관련된 유전자 내에 존재하는 1,068 개의 단일 염기 변이들로 구성된다. 초매개변수 설정을 위해 생성된 100 개의 무작위 데이터 집합에 대한 실험 결과 랜덤 포레스트가 area under the precision recall curve에서 가장 우수한 성능을 보였다. 15 개의 홀드아웃 유전자 집합에 대한 실험에서는 심층 신경망이 평균적으로 가장 우수한 결과를 보였으나 두 번째로 우수한 랜덤포레스트와의 성능 차이는 유의미하지 않았다. 또한 로지스틱회귀는 두 모델에 비해 통계적으로 유의미하게 낮은 성능을 보였다. 결론적으로 심층 신경망과 랜덤포레스트가 로지스틱 회귀에 비해 유전암 관련 단일 염기 변이의 병원성 예측에 일반적으로 더 적합함을 알 수 있었다.
기계학습을 활용한 화합물의 약인성 간 손상 예측 방법 연구
http://doi.org/10.5626/JOK.2023.50.9.777
약인성 간 손상은 임상시험용 의약품이 시장에 유통되는 것을 막는 요인 중 하나이다. 따라서 사전에 화합물의 약인성 간 손상 위험 평가가 필요하다. 안전성을 평가하기 위해 생체 내 (in vivo) 및 시험관 내 시험 방법(in vitro)이 사용되지만 이들은 시간과 비용이 많이 든다. 본 연구에서는 위의 문제를 극복하고자 random forest, light gradient boosting machine, logistic regression 모델을 제안한다. 모델은 입력으로 화합물의 분자 구조와 물리화학적 특징을 사용하고 출력으로 약인성 간 손상을 예측한다. 최적의 모델은 평가 지표에서 전반적으로 좋은 성능을 보인 random forest였다. 본 연구에서 제안된 모델은 신약 후보물질의 잠재적인 간 손상을 미리 파악함으로써 신약 개발 과정에 도움을 줄 수 있을 것으로 기대된다.
한국어 과학기술 논문 초록 문장 분류를 위한 데이터셋 및 학습 모델
http://doi.org/10.5626/JOK.2023.50.6.468
문서에 존재하는 각 문장을 역할 또는 기능에 따라 분류하는 것은 매우 중요하다. 특히, 과학기술 논문의 초록에는 여러 가지 연구 관련 내용이 등장하는데, 이것을 각 의미에 따라 분별하고, 적절한 의미 태그를 부여하는 것은 콘텐츠 큐레이션 측면에서 매우 필요하지만, 작업의 복잡성과 다양성으로 인하여 쉽지 않은 일로 여겨지고 있다. 예를 들어, 생물 의학 관련 외국어 초록 데이터(PubMed)의 경우 초록을 구성하는 문장들은 대체로 일관된 의미적 순서(예, 배경-목적-방법-결과-결론)를 지키고 있지만, 한국어 논문 초록에서 문장들은 저자에 따라 매우 상이한 순서로 기술되어 있다. 본 연구에서는 한국어로 기술된 과학기술 도메인의 논문초록들을 대상으로 각 문장을 그 역할에 따라 태깅한 데이터셋(PubKorSci-1k)을 구축을 하고, 데이터셋에 맞는 문장 분류를 위한 학습 기법을 제안한다.
탐색적 데이터 분석과 기계학습을 통한 상부 요로감염 환자 Ciprofloxacin 항생제 내성 예측 연구
http://doi.org/10.5626/JOK.2023.50.3.263
응급의학과 의사는 요로감염 환자에 대해 임상적으로 감염 병원균 또는 항생제 내성 프로파일이 확인되기 전에 항생제를 선택해야 하는 경험적 치료전략을 사용한다. 지역사회의 요로 병원균의 항생제 내성 증가를 우려하였을 때 경험적 치료는 도전적인 과업이다. 본 연구는 단일 기관 후향적 연구로써, 응급실에서 상부 요로 감염 진단을 받은 환자를 대상으로 기계학습 알고리즘을 통한 항생제 내성 예측 방법을 제안한다. 먼저, 통계적 검정 방법과 게임 이론적 방식 기반의 SHAP(SHapley Additive exPlanation)을 수행하여 유의미한 예측 변수를 선택한다. 그리고 4개의 분류기의 성능을 비교하고 예측 확률 임계치 조절을 통해 의사의 경험적 치료를 보조할 수 있는 알고리즘을 제안한다. 결과적으로, SHAP를 통해 선별된 전체 예측 변수의 65%만을 사용한 SVM 분류기는 실험에 사용된 모든 분류기 중에 AUROC 0.775로 가장 높은 성능을 보였고, 모든 예측 변수를 사용했을 때보다 AUROC 0.015 증가했다. 그리고 예측 확률 임계치를 조절 과정을 통해 의사의 경험적 치료의 민감도를 98% 수준으로 유지하면서 특이도가 3.9배 향상된 분류 정확도를 달성했다.
Few-shot 이미지 분류를 위한 프로토타입 노드 기반 그래프 신경망
http://doi.org/10.5626/JOK.2023.50.2.127
딥러닝 모델의 우수한 성능은 많은 양의 학습 데이터를 기반으로 이루어진다. 그러나 이러한 대량의 데이터를 얻기 어려운 다수의 도메인이 있으며, 이러한 도메인에서는 데이터의 수집과 정제에 많은 자원을 투자해야 한다. 이러한 한계를 극복하기 위한 방법으로 적은 수의 데이터만으로도 학습이 가능하도록 하는 few-shot 학습에 대한 연구가 활발하게 이루어지고 있다. 특히 메타러닝 방법론 중 데이터 간의 유사도를 활용하는 메트릭 기반 학습은 새로운 태스크에 대한 모델의 미세 조정이 필요하지 않다는 장점을 지니며, 최근에는 여기에 그래프 신경망을 활용한 연구들이 좋은 결과를 보이고 있다. 그래프 신경망 기반의 few-shot 분류 모델은 주어진 서포트 셋과 쿼리 셋의 데이터를 노드로 하는 태스크 그래프를 구성함으로써, 데이터의 특성과 데이터 사이의 관계를 명시적으로 처리할 수 있다. EGNN(Egde-labeling Graph Neural Net) 모델의 경우, 데이터 간의 유사도를 엣지 레이블의 형태로 표현하여 보다 명확한 클래스 내 유사도와 클래스 간 유사도를 모델링한다. 본 논문에서는 이러한 few-shot 태스크 그래프에 각 클래스를 대표하는 프로토타입 노드를 적용하여, 데이터 간 유사도와 클래스-데이터 간 유사도를 동시에 모델링하는 방법을 제안한다. 제안하는 모델은 태스크의 데이터와 클래스 구성에 적합하게 생성되는 일반화된 프로토타입 노드를 제공하며, 프로토타입-쿼리 엣지 레이블 기반, 혹은 프로토타입-쿼리 노드 사이의 유클리드 거리를 기반으로 하는 두 가지의 서로 다른 few-shot 이미지 분류 예측을 수행할 수 있다. miniImageNet 데이터셋에 대한 5-way 5-shot 분류 성능을 EGNN 모델 및 기타 메타러닝 기반의 few-shot 분류 모델들과 비교한 결과, 제안하는 모델에서 의미 있는 성능 향상을 확인하였다.
온라인 커뮤니티 사용자의 행동 패턴을 고려한 동일 사용자의 닉네임 식별 기법
http://doi.org/10.5626/JOK.2018.45.2.165
온라인 커뮤니티란 SNS와 달리 사용자들이 닉네임을 통해 익명으로 관심사와 취미를 공유하는 가상 그룹 서비스이다. 그런데 이런 익명성을 악의적으로 활용하는 사용자들이 존재하고, 닉네임의 변경으로 인해 동일 사용자의 데이터가 서로 다른 닉네임에 존재하는 데이터 파편화 문제가 발생할 수 있다. 또한 온라인 커뮤니티에서는 닉네임을 변경하는 일이 빈번하므로 동일 사용자를 식별하는데 어려움을 겪는다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 온라인 커뮤니티 특성을 고려한 사용자의 행동패턴 특징 벡터를 제시하며, 관계 패턴이라는 새로운 암시적 행동 패턴을 제안함과 동시에 랜덤 포레스트 분류기를 이용한 동일 사용자의 닉네임을 식별하는 기법을 제안한다. 또한 실제 온라인 커뮤니티 데이터를 수집해 제안한 행동패턴과 분류기를 이용해 동일 사용자를 유의미한 수준으로 식별할 수 있음을 실험적으로 보인다.
딥 러닝을 이용한 버그 담당자 자동 배정 연구
http://doi.org/10.5626/JOK.2017.44.11.1156
기존의 버그 담당자 자동 배정 연구들은 대부분 기계학습 알고리즘을 기반으로 예측 시스템을 구축하는 방식이었다. 따라서, 고성능의 기계학습 모델을 적용하는 것이 담당자 자동 배정 시스템 성능의 핵심이 된다고 할 수 있으며 관련 연구에서는 높은 성능을 보이는 SVM, Naive Bayes 등의 기계학습 모델들이 주로 사용되고 있다. 본 논문에서는 기계학습 분야에서 최근 좋은 성능을 보이고 있는 딥 러닝을 버그 담당자 자동 배정에 적용하고 그 성능을 평가한다. 실험 결과, 딥 러닝 기반 Bug Triage 시스템이 활성 개발자 대상 실험에서 48%의 정확도를 달성했으며 이는 기존의 기계학습 대비 최대 69%향상된 결과이다.
정보검색기반 결함위치식별 기술의 성능 향상을 위한 버그리포트 품질 예측
http://doi.org/10.5626/JOK.2017.44.8.832
버그리포트는 소프트웨어의 유지보수 단계에서 발생한 결함 정보를 담고 있는 문서로서 개발자가 해당 결함을 수정하기 위해 필수적인 정보이다. 이 때 개발자가 버그리포트를 해결하기 위해 결함을 추적하는 시간을 단축시키기 위한 정보검색기반 결함위치식별 기술들이 제안되었다. 그러나 정보검색에 유용하지 못한 내용들로 작성된 낮은 품질의 버그리포트가 등록 될 경우 결함위치식별 성능이 크게 저하된다. 본 논문에서는 낮은 품질의 버그리포트를 선별하기 위한 품질 예측 방법을 제안한다. 이 과정에서 버그리포트의 쿼리로써의 품질 요소를 정의하고, 기계학습을 사용하여 품질을 예측한다. 제안 방법을 오픈소스 프로젝트에 적용하여 기존 품질 예측 기술 대비 평균 6.62% 더 정확하게 예측하였다. 또한 기존 결함위치식별 기술에 제안 예측 기술과 자동 쿼리 재구성 기술을 함께 적용한 경우 결함위치식별 정확도를 1.3% 향상시켜, 제안 품질 예측 기술이 정보검색기반 결함위치식별 기술의 성능 향상을 도울 수 있음을 확인하였다.
인기 검색어의 순위 변화 예측
http://doi.org/10.5626/JOK.2017.44.8.782
인기 검색어 리스트는 현재 가장 인기 있는 검색어의 순위를 보여주는 서비스로서 네이버와 같은 포털사이트가 제공한다. 이 리스트에서의 순위 변화는 특정 검색어에 대한 사람들의 관심의 변화를 반영한다. 본 논문은 인기 검색어의 순위 변화를 예측하기 위해 시계열 모델링 프레임워크를 제안한다. 제안한 프레임워크는 과거 순위와 기계학습 모델이 적용되었고, 여기서 해결해야 할 두 가지 문제점이 있다. 첫째, 과거 순위 데이터를 분석한 결과, 70% 이상의 검색어가 리스트에서 소멸 후 재출현하는 현상을 보였다. 소멸 후의 순위는 손실 값으로 볼 수 있으며, 이를 해결하기 위해서 다양한 처리 방법을 적용하였다. 둘째, 과거 순위 데이터는 시계열 데이터이므로 최적 윈도우 크기를 계산하는 것이 중요하다. 본 논문에서는 최적 윈도우 크기는 동일한 검색어들이 서로 다른 두 시점에서 내용상 의미가 달라지는 최단 소멸기간으로 볼 수 있음을 밝혔다. 성능 평가를 위해서 4가지의 기계학습 기법과 2년 동안 수집한 네이버, 다음, 네이트의 인기 검색어 리스트 데이터를 사용하였다.