디지털 라이브러리[ 검색결과 ]
한국어 버그리포트에서 번역을 활용한 정보검색기반 버그 추적
http://doi.org/10.5626/JOK.2024.51.9.827
정보검색기반 버그 추적 기술은 버그리포트를 쿼리로 사용하여 결함이 있는 소스 파일을 자동 으로 찾아주는 기술로, 개발자들이 버그 위치를 찾는데 소모되는 시간을 크게 단축시킬 수 있다. 이 기술 의 핵심은 버그리포트와 소스 파일 텍스트 간 유사도를 계산하는 것이다. 그러나 한국어로 작성된 버그리 포트의 경우, 영어를 기반으로 하는 소스 코드와의 단어 매칭이 어렵기 때문에, 텍스트 유사도가 효과적이 지 않을 수 있다. 본 연구에서는 국내 개발자들이 이 기술을 효과적으로 사용할 수 있도록, 번역을 활용한 한국어 버그리포트를 위한 정보검색기반 버그 추적 기술을 제안한다. 이를 위해 다양한 번역기 결과를 종 합적으로 활용하는 soft voting 방식을 적용한다. 제안 기법의 성능 검증을 위해, 269개의 한국어 버그리 포트를 수집하고, 세 종류의 번역기와 두 종류의 순위 모델을 통해 실험을 수행했다. 그 결과, 제안 기법이 기존 버그리포트 대비 결함 추적 성능을 44% 개선시킴을 확인했다.
문서 쌍 유사도 판별을 위한 문장 상호 관계 및 그래프 기반 모델의 앙상블
http://doi.org/10.5626/JOK.2021.48.11.1184
뉴스 기사와 같은 문서 클러스터링에서 두 문서 간의 유사도는 클러스터의 특성을 결정하는 중요한 부분 중 하나이다. 기존 딥러닝 기반 접근 방법인 시퀀스 유사도 측정 모델은 문서 단위에서 나타나는 긴 문맥을 반영하지 못하는 문제점을 가지고 있다. 본 연구에서는 뉴스 클러스터링에 적합한 문서 쌍 유사도 모델을 구성하기 위해 상호 작용 기반 접근, 그래프 기반 접근 방법을 사용한다. 상호 작용 기반 접근에서는 문서 쌍 내 다수의 문장 표현들 간의 유사도 정보를 종합해 전체 문서 쌍의 유사도를 측정하는 네 가지 유사도 모델을 제안한다. 기존 접근 방법들인 SVM, HAN에 비해 두 가지 접근 방법에서 높은 성능이 나타남을 확인했다. 그래프 기반 접근에서는 입력에 사용되는 자질의 종류와 신경망의 깊이에 따른 성능 변화를 확인했다. 또한, 상이한 두 접근 방법이 갖는 예측양상의 차이와 상호보완성을 오류 분석과 앙상블을 통해 확인했다.