디지털 라이브러리[ 검색결과 ]
문서 쌍 유사도 판별을 위한 문장 상호 관계 및 그래프 기반 모델의 앙상블
http://doi.org/10.5626/JOK.2021.48.11.1184
뉴스 기사와 같은 문서 클러스터링에서 두 문서 간의 유사도는 클러스터의 특성을 결정하는 중요한 부분 중 하나이다. 기존 딥러닝 기반 접근 방법인 시퀀스 유사도 측정 모델은 문서 단위에서 나타나는 긴 문맥을 반영하지 못하는 문제점을 가지고 있다. 본 연구에서는 뉴스 클러스터링에 적합한 문서 쌍 유사도 모델을 구성하기 위해 상호 작용 기반 접근, 그래프 기반 접근 방법을 사용한다. 상호 작용 기반 접근에서는 문서 쌍 내 다수의 문장 표현들 간의 유사도 정보를 종합해 전체 문서 쌍의 유사도를 측정하는 네 가지 유사도 모델을 제안한다. 기존 접근 방법들인 SVM, HAN에 비해 두 가지 접근 방법에서 높은 성능이 나타남을 확인했다. 그래프 기반 접근에서는 입력에 사용되는 자질의 종류와 신경망의 깊이에 따른 성능 변화를 확인했다. 또한, 상이한 두 접근 방법이 갖는 예측양상의 차이와 상호보완성을 오류 분석과 앙상블을 통해 확인했다.
그래프 기반 준지도 학습에서 빠른 낮은 계수 표현 기반 그래프 구축
http://doi.org/10.5626/JOK.2018.45.1.15
낮은 계수 표현(Low-Rank Representation, LRR) 기반 방법은 얼굴 클러스터링, 객체 검출 등의 여러 실제 응용에 널리 사용되고 있다. 이 방법은 그래프 기반 준지도 학습에서 그래프 구축에 사용할 경우 높은 예측 정확도를 확보할 수 있어 많이 사용된다. 그러나 LRR 문제를 해결하기 위해서는 알고리즘의 매 반복마다 데이터 수 크기의 정방행렬에 대해 특이값 분해를 수행하여야 하므로 계산 비효율적이다. 이를 해결하기 위해 속도를 향상시킨 발전된 LRR 방법을 제안한다. 이는 최근 발표된 Fast LRR(FaLRR)을 기반으로 하며, FaLRR이 속도는 빠르지만 실제로 분류 문제에서 성능이 낮은 것을 해결하기 위해 기반 최적화 목표에 추가 제약 조건을 도입하고 이를 최적화하는 방법을 제안한다. 실험을 통하여 제안 방법은 LRR보다 더 좋은 해를 빠르게 찾아냄을 확인할 수 있다. 또한, 동일한 해를 도출하는 방법을 찾아내기는 어렵지만 최소화하는 목표가 추가될 경우 더 좋은 결과를 나타내는 Fast MLRR(FaMLRR)을 제안한다.
준지도 학습에서 꼭지점 중요도를 고려한 레이블 추론
준지도 학습은 기계 학습의 한 분야로서, 레이블된 데이터와 레이블되지 않은 데이터 모두를 사용하여 모델을 학습함으로써 지도 학습에 비해 예측 정확도를 높일 수 있다. 최근 각광받고 있는 그래프 기반 준지도 학습은 입력 데이터를 그래프의 형태로 변환하는 그래프 구축 단계와 이를 사용하여 레이블되지 않은 데이터의 레이블을 예측하는 레이블 추론 단계로 나뉜다. 이 추론은 준지도 학습에서의 평활도 가정을 기본으로 한다. 본 연구에서는 추가로 각 꼭지점 중요도를 결합함으로써 개선된 레이블 추론알고리즘을 제안한다. 이와 함께 알고리즘의 수렴성을 증명하고, 또한 실험을 통해 알고리즘의 우수성을 검증하였다.