디지털 라이브러리[ 검색결과 ]
검색 : [ keyword: semi-automatic expansion ] (1)
K-means 클러스터링 방법과 유사도 측정 기반의 채팅 말뭉치 반자동 확장 방법
http://doi.org/10.5626/JOK.2019.46.5.440
본 논문에서는 영화 자막, 극 대본과 같이 대량의 발화 데이터를 이용하여 채팅 말뭉치를 반자동으로 확장하는 방법을 제안한다. 채팅 말뭉치 확장을 위해 미리 구축된 채팅 말뭉치와 유사도 기법을 이용하여 채팅 유사도를 구하고, 채팅 유사도가 실험을 통해 얻은 임계값보다 크다면 올바른 채팅 쌍이라고 판단하였다. 본 논문에서 제안하는 것은 형태소 단위 임베딩 벡터와 합성곱 신경망 모델을 이용하여 발화 단위 표상을 생성하는 것이다. 그리고 반자동 구축 모델의 속도를 개선하기 위해서 K-means 클러스터링 방법을 적용하여 채팅 말뭉치를 군집, 계산량을 줄일 것을 제안한다. 그 결과 기본 발화 단위 표상생성 방법인 TF를 이용하는 것보다 정확률, 재현율, F1에서 각각 5,16%p, 6.09%p, 5.73%p 각각 상승하여 61.28%, 53.19%, 56.94%의 성능을 도출하였다. 그리고 속도 개선을 위해 발화를 클러스터링하여 속도 면에서도 103배 향상된 채팅 말뭉치 반자동 구축 모델을 구축할 수 있었다.