검색 : [ keyword: Feature selection ] (5)

버그 심각도 예측에 버그 리포트의 다중 토픽 분석 및 CNN 알고리즘 적용

김언태, 양근석, 정인홍

http://doi.org/10.5626/JOK.2023.50.11.954

소프트웨어 개발에 있어 버그는 자주 발생한다. 버그의 심각도에 따라 심각하지 않은 오류와 심각한 오류로 분류할 수 있다. 그러나 버그의 심각도는 버그 리포트 작성자가 주관적인 판단으로 선택할 수 있어 심각도 판단에 오류가 발생할 수 있다. 이를 해결하기 위해 본 논문에서는 토픽별 심각 및 심각하지 않은 특징 추출을 적용하여 버그의 심각도를 예측한다. 먼저, 버그 리포트의 속성을 이용하여, Global 토픽, Product 토픽, Component 토픽 및 Priority 토픽을 구축하고, 각 토픽에 Severe, Non-Severe 기반으로 버그 리포트를 추출한다. Global 토픽에서 Severe, Non-Severe에 대해 심각성에 대한 특징을 추출한다. Product 토픽, Component 토픽, Priority 토픽도 동일하게 심각성 특징을 추출한다. 추출한 특징을 결합하여 CNN 알고리즘에 입력으로 넣고 모델을 학습한다. 제안한 모델의 효율성을 평가하기 위해 Eclipse, Mozilla, Apache, KDE 오픈 소스 프로젝트에서 제안한 모델과 베이스라인을 비교하였다. 제안한 모델이 더 좋은 성능을 보였다. 자세히는 Eclipse 97%, Mozilla 96%, Apache 95%, KDE 99%의 성능을 보였으며 베이스라인 대비 평균 약 24.59%의 성능 향상을 보였다. 추가적으로 통계적 검증에서도 유의미한 차이를 보였다.

탐색적 데이터 분석과 기계학습을 통한 상부 요로감염 환자 Ciprofloxacin 항생제 내성 예측 연구

이종법, 이현규

http://doi.org/10.5626/JOK.2023.50.3.263

응급의학과 의사는 요로감염 환자에 대해 임상적으로 감염 병원균 또는 항생제 내성 프로파일이 확인되기 전에 항생제를 선택해야 하는 경험적 치료전략을 사용한다. 지역사회의 요로 병원균의 항생제 내성 증가를 우려하였을 때 경험적 치료는 도전적인 과업이다. 본 연구는 단일 기관 후향적 연구로써, 응급실에서 상부 요로 감염 진단을 받은 환자를 대상으로 기계학습 알고리즘을 통한 항생제 내성 예측 방법을 제안한다. 먼저, 통계적 검정 방법과 게임 이론적 방식 기반의 SHAP(SHapley Additive exPlanation)을 수행하여 유의미한 예측 변수를 선택한다. 그리고 4개의 분류기의 성능을 비교하고 예측 확률 임계치 조절을 통해 의사의 경험적 치료를 보조할 수 있는 알고리즘을 제안한다. 결과적으로, SHAP를 통해 선별된 전체 예측 변수의 65%만을 사용한 SVM 분류기는 실험에 사용된 모든 분류기 중에 AUROC 0.775로 가장 높은 성능을 보였고, 모든 예측 변수를 사용했을 때보다 AUROC 0.015 증가했다. 그리고 예측 확률 임계치를 조절 과정을 통해 의사의 경험적 치료의 민감도를 98% 수준으로 유지하면서 특이도가 3.9배 향상된 분류 정확도를 달성했다.

스마트폰 어플리케이션 설치 목록을 이용한 사용자 특성 추론

기홍도, 이재홍, 박희웅, 채문정, 최상우, 박종헌

http://doi.org/10.5626/JOK.2018.45.12.1240

스마트폰의 사용이 보편화됨에 따라 개인화 서비스에 대한 요구가 증가하고 있다. 이에 따라 개인화 서비스를 제공할 때 유용하게 활용될 수 있는 사용자 특성을, 데이터 기반으로 통계 학습을 이용해 추론하는 연구가 활발히 진행되고 있다. 본 연구에서는 사용자의 관심사와 생활습관을 반영하고 있을 뿐만 아니라, 적은 비용으로 수집할 수 있는 어플리케이션 설치 목록으로부터 요인 벡터를 추출하여 사용자 특성을 추론한다. 추론 과정에서는 설치 목록과 더불어 어플리케이션 스토어에서 획득 가능한 메타정보인 카테고리와 설명글을 이용하여 사용자를 표현하는 네 가지 요인 벡터를 만들어 사용한다. 특히, 인공 신경망 기반의 텍스트 임베딩 기법인 Doc2Vec을 설명글에 적용한 요인 벡터를 사용한다. 또한, 요인 벡터 추출에 이용되는 어플리케이션을 선별하는 기준을 제시하여 추론 성능을 높이고자 하였다. 국내 스마트폰 사용자 100명으로부터 데이터를 수집하여 성별, 연령, 연애 상태, 거주형태, 동거 여부, 수입 수준, 지출 수준, 신장, 체중, 종교, 이수 학기, 단과대학을 추론하는 실험을 수행했으며, 제안 기법의 우수성을 확인하였다.

An Effective Comparative Framework for Cross-Project Defect Prediction Based on the Feature Selection Technique

Duksan Ryu, Jongmoon Baik

http://doi.org/10.5626/JOK.2018.45.7.635

소프트웨어 결함예측(SDP)은 결함취약모듈에 대한 테스팅 리소스를 최적으로 할당하도록 돕는다. 내부프로젝트 결함예측(WPDP)과 달리, 파일럿 프로젝트의 예처럼, 과거 프로젝트에서 수집한 데이터가 없는 경우가 존재한다. 이런 경우, 다른 프로젝트의 데이터를 사용하는 교차프로젝트 결함예측(CPDP)이 적용될 수 있다. 관련성이 없거나 중복된 정보가 있는 경우 결함예측 성능이 저하 될 수 있는데, 이를 해결하기 위해 다양한 특징선택 기술이 제안되었다. 현재까지 CPDP에 효과적인 특징선택 기술을 식별하는 연구는 없으며, 우리는 CPDP에 높은 예측성능을 얻기 위해 특징선택 기법을 적용한 비교 프레임워크를 제시한다. 3개의 CPDP 모델들과 1개의 WPDP 모델에 대해, 우리는 특징 부분집합 평가자와 특징 순위 기법에 기반한 8개의 기존 특징선택 기법을 비교한다. 최고의 성능을 보인 특징들이 선택된 후, 분류기들이 구축, 테스트되고, 통계적 유의성 검증과 영향도 크기 검증기법을 활용하여 평가된다. 근접 기반 하이브리드 인스탄스 선택(HISNN)이 다른 CPDP 모델들보다 우수하고 WPDP와는 동등하였다. 비교 결과는 다른 분포, 클래스 불균형, 특징선택이 고성능의 CPDP 모델을 얻기 위해 고려되어야 함을 보이고 있다.

모바일 결제 시스템의 수요 예측을 위한 신경망에서 특징 선별 기법

김호준, 조윤석, 김경미

http://doi.org/10.5626/JOK.2018.45.4.370

본 논문에서는 모바일 결제시스템의 서비스 수요예측을 위한 방법론으로서 신경망 기반의 시계열예측 기법을 제시한다. 예측에 필요한 특징 선별과정과 시계열 데이터의 예측과정을 위하여 2단계 신경망 모델을 제안하며 그 동작 특성과 알고리즘에 관해 기술한다. 특징 데이터의 표현을 위하여 3종류의 퍼지 멤버쉽함수를 적용하며, 하이퍼박스 기반의 신경망 모델을 사용하여 특징의 연관도 요소를 평가하는 방법을 제시한다. 제안된 특징 선별 기법은 예측 시스템의 계산량을 감소시키며, 학습데이터 집합에서 왜곡된 특징 데이터를 제거할 수 있게 한다. 실제 스마트캠퍼스 시스템에서 취득한 2년간의 데이터를 사용하여 실험을 수행하고 그 결과를 통하여 제안된 기법의 유용성을 평가한다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr