디지털 라이브러리[ 검색결과 ]
능동 학습 기반 교차 프로젝트 결함 예측 시스템에 대한 개선 연구
http://doi.org/10.5626/JOK.2023.50.11.931
본 연구는 교차 프로젝트 결함 예측을 위한 능동 학습 기반 시스템에 대한 실용적 개선 방법을 제안한다. 교차 프로젝트 결함 예측의 성능을 실용적으로 높이기 위해 능동 학습을 적용하는 연구가 시도된 바 있다. 그러나 능동 학습 대상 선정과 결함 예측에 수제 특징을 입력으로 사용하는 전통적 기계학습 모델을 사용했기 때문에 특징 추출에 많은 비용이 들고 성능 한계가 있었으며, 입력 프로젝트의 선택에 따른 성능 편차 문제가 남아있었다. 본 연구에서는 다음의 방법을 제안한다. 첫째, 모델 구축 비용을 낮추고 예측 성능을 높이기 위해 소스 코드를 입력으로 사용할 수 있는 딥러닝 모델을 사용한다. 둘째, 딥러닝 모델로 능동 학습 대상을 선정하기 위한 방법으로 베이지안 합성곱 신경망을 적용한다. 셋째, 다중 프로젝트들로부터 학습 데이터 세트를 자동 추출하는 방법을 적용한다. 본 연구를 7개 오픈 소스 프로젝트들에 적용한 결과, 기존 연구 대비 평균 13.58% 개선된 예측 성능을 확인하였다.
위키피디아 기반 개체명 사전 반자동 구축 방법
개체명은 다양한 자연어처리 연구 및 서비스에 중요한 정보로 이용된다. 개체명 인식의 성능을 향상시키기 위한 여러 연구에서 개체명 사전을 이용한 자질이 개체명 인식 성능에 큰 영향을 준다는 것을 보이고 있다. 그러나 개체명 사전을 구축하는 것은 매우 시간 소모적이고, 인력 소모적인 작업이다. 이를 완화하기 위해서 본 논문에서는 개체명 사전을 반자동으로 구축하는 방법을 제안한다. 제안 시스템은 능동학습을 이용하여 위키피디아 분류정보로 구성된 가상 문서를 개체명 범주 당 하나씩 생성한다. 그리고 잘 알려진 정보검색 모델인 BM25를 이용하여 위키피디아 엔트리와 가상문서 사이의 유사도를 계산한다. 마지막으로 유사도를 바탕으로 각 위키피디아 엔트리를 개체명 범주로 분류한다. 서로 다른 3종류의 개체명 범주 집합에서 실험한 결과, 제안 시스템은 매크로 평균 F1-점수 0.9028, 마이크로 평균 F1-점수 0.9554이라는 높은 성능을 보였다.