디지털 라이브러리[ 검색결과 ]
교차 버전 결함 예측용 적대적 학습 기반 딥 도메인 적응 기법 분석
http://doi.org/10.5626/JOK.2023.50.6.460
소프트웨어 결함 예측은 효과적인 테스팅 자원 할당에 유용한 기법이다. 소프트웨어 교차 버전 결함 예측은 소프트웨어가 연속적인 버전으로 개발되는 환경을 반영하며, 소프트웨어 모듈은 버전 업데이트 과정을 거치며 추가되거나 삭제된다. 이러한 과정의 반복은 버전 간의 데이터 분포 차이를 발생시키는 원인이 되며, 데이터 분포 차이는 예측 성능을 저하시킨다. 딥 도메인 적응 기법은 컴퓨터 비전 분야에서 소스와 타겟 데이터의 분포 차이를 줄이는데 사용되는 기법이다. 본 연구의 목표는 다양한 적대적 학습 기반의 딥 도메인 적응 기법을 활용해 버전 간의 데이터 분포 차이를 줄이고, 결함 예측 성능이 가장 우수한 기법을 식별하는 것이다. 우리는 딥 도메인 적응 기법인 Domain-Adversarial Neural Network(DANN)와 Adversarial Discriminator Domain Apaptation(ADDA), Wasserstein Distance Guided Representation Learning(WDGRL)의 성능을 비교 실험하며, 소스 데이터의 구성에 따른 성능 차이를 확인한다. 또한 학습 과정에 사용되는 타겟 데이터의 비율에 따른 성능 차이와 세 가지 딥 도메인 적응 기법 중 결함 예측성능이 가장 우수한 DANN 모델의 하이퍼파라미터 설정에 따른 성능 차이를 확인한다. 실험 결과, DANN 모델은 타겟 버전을 제외한 이전 버전의 모든 데이터를 소스로 사용할 때 성능이 가장 우수하다. 특히 DANN 모델의 은닉층 수를 3개로 설정할 때 가장 우수한 성능을 보였다. 또한 딥 도메인 적응 기법을 적용할 때, 학습 과정에 사용되는 타겟 데이터가 많을수록 우수한 성능을 보인다. 본 연구를 통해 향후 다양한 딥 도메인 적응 기법이 소프트웨어 교차 버전 결함 예측에 활용될 수 있을 것으로 기대한다.
데이터 분포의 균형화를 이용한 한국어 텍스트의 차원적 감성 분석
http://doi.org/10.5626/JOK.2021.48.7.790
텍스트 혹은 발화의 감정을 연속적인 수치로 회귀하는 차원적 감성 분석 연구는 데이터의 부족으로 인해 감정을 범주로 분류하는 범주적 감성 분석 연구에 비해 많은 연구가 이루어지지 못하였다. 최근 한국정보화진흥원의 AI Hub를 통해 공개된 ‘멀티모달 영상 데이터’는 한국어의 차원적 감성 분석 연구에 활용할 수 있는 공공 데이터이다. 본 연구에서는 자연어 처리에서 전형적으로 쓰여 온 딥 러닝 모델인 중 하나인 CNN을 이용해 한국어의 차원적 감성 분석을 시도하였다. 또한 데이터의 분포를 균형적으로 조정함으로써 모델의 성능이 향상되는지 검증하였다. 실험 결과 모델들은 기존의 영어 연구와 비슷한 성능을 보여 한국어 텍스트의 차원적 감성 분석 연구에서 ‘멀티모달 영상 데이터’가 효용성을 지님을 알 수 있었다. 또한 데이터를 균형화함으로써 더 적은 학습 데이터를 이용해 학습한 모델이 더 좋은 성능을 보일 수 있음을 확인하였다.
긍정 데이터 분포를 반영한 다중 인스턴스 지지 벡터 기계 학습
본 논문에서는 데이터 분포를 고려한 다중 인스턴스 지지 벡터 기계 학습 알고리즘을 제안한다. 기존의 방법은 긍정 가방 안에서 “가장 긍정”인 인스턴스만 고려하여 마진을 찾는다. 일반적으로 다중인스턴스로 표현된 데이터에서, 긍정 가방에 포함된 인스턴스들 중 실제로 긍정을 나타내는 인스턴스들은 자질 공간 상에서 서로 유사한 곳에 위치해 있다. 제안한 방법은 기존의 다중 인스턴스 지지 벡터 기계학습 알고리즘 중에서 긍정 인스턴스들의 교차점을 찾아 이 교차점과 거리를 계산하여 “가장 긍정”인 인스턴스를 선택한다. 긍정 인스턴스들의 교차점인 피벗 포인트를 구하는 방식은 두 가지이다. 먼저, 학습과정 중 추정된 긍정 인스턴스들의 중심점을 사용하는 방법과 학습 시작 시에 가장 긍정일 것으로 예상되는 긍정 인스턴스들의 중심점을 찾는 방법으로 나뉜다. 총 12개의 벤치마크 다중 인스턴스 데이터 셋을 통해 제안한 방법이 기존의 학습 알고리즘에 비해 더 좋은 성능을 보임을 보인다.