디지털 라이브러리[ 검색결과 ]
K-means 클러스터링 방법과 유사도 측정 기반의 채팅 말뭉치 반자동 확장 방법
http://doi.org/10.5626/JOK.2019.46.5.440
본 논문에서는 영화 자막, 극 대본과 같이 대량의 발화 데이터를 이용하여 채팅 말뭉치를 반자동으로 확장하는 방법을 제안한다. 채팅 말뭉치 확장을 위해 미리 구축된 채팅 말뭉치와 유사도 기법을 이용하여 채팅 유사도를 구하고, 채팅 유사도가 실험을 통해 얻은 임계값보다 크다면 올바른 채팅 쌍이라고 판단하였다. 본 논문에서 제안하는 것은 형태소 단위 임베딩 벡터와 합성곱 신경망 모델을 이용하여 발화 단위 표상을 생성하는 것이다. 그리고 반자동 구축 모델의 속도를 개선하기 위해서 K-means 클러스터링 방법을 적용하여 채팅 말뭉치를 군집, 계산량을 줄일 것을 제안한다. 그 결과 기본 발화 단위 표상생성 방법인 TF를 이용하는 것보다 정확률, 재현율, F1에서 각각 5,16%p, 6.09%p, 5.73%p 각각 상승하여 61.28%, 53.19%, 56.94%의 성능을 도출하였다. 그리고 속도 개선을 위해 발화를 클러스터링하여 속도 면에서도 103배 향상된 채팅 말뭉치 반자동 구축 모델을 구축할 수 있었다.
위키피디아 기반의 효과적인 개체 링킹을 위한 NIL 개체 인식과 개체 연결 중의성 해소 방법
http://doi.org/10.5626/JOK.2017.44.8.813
개체 링킹은 입력된 질의에 존재하는 개체를 표현한 개체 표현(entity mention)을 지식베이스에 존재하는 개체와 연결하여 의미를 파악하는 연구이다. 개체 링킹에 관한 연구는 지식 베이스 구축 문제, 다중 표현 문제, 개체 연결 중의성 문제, NIL 개체 인식 문제가 존재한다. 본 연구에서는 지식 베이스 구축 문제와 다중 표현 문제를 해결하기 위해 위키피디아를 기반으로 개체 이름 사전을 구축한다, 또한, 문맥 유사도, 의미적 관련성, 단서 단어 점수, 개체 표현의 개체명 타입 유사도, 개체 이름 매칭 점수, 개체인기도 점수 자질들을 기반으로 SVM(support vector machine)을 학습하여, NIL 개체를 인식하는 문제와 개체 연결 중의성을 해소하는 방법을 제안한다. 구축한 지식 베이스를 기반으로 제안한 두 방법을 순차적으로 적용하였을 때 좋은 개체 링킹 성능을 얻었다. 개체 링킹 시스템의 성능은 NIL 개체 인식 성능이 83.66%, 중의성 해소 성능이 90.81%의 F1 점수를 보였다.