디지털 라이브러리[ 검색결과 ]
Word2vec 모델로 학습된 단어 벡터의 의미 관계 분석
http://doi.org/10.5626/JOK.2019.46.10.1088
자연어 처리를 이용한 인공 지능 활용이 증가하면서 단어 임베딩에 대한 중요성이 증가하고 있다. 이 논문에서는 단어 임베딩에 활용되는 word2vec 모델이 단어들 간의 대립 및 상하 관계를 표현하는 능력을 군집화 특성과 t-SNE 분포를 이용하여 정성적으로 분석하였다. 이를 위하여 10가지 범주에 속하는 단어들에 대해서 K-Means 알고리즘에 따라서 군집화를 실시하였다. 단어의 대립 관계는 일부 제대로 표현되지 않는 경우가 발생하였다. 이는 일부 대립 관계에 있는 단어들이 다수의 공통적인 속성을 갖고 있으면서 소수의 대립적 속성만을 갖고 있기 때문으로 보인다. 또한, 단어의 상하 관계는 word2vec 모델에서 전혀 반영되지 않음이 확인되었다. 그 원인은 단어의 상하 관계가 언어의 자연스러운 습득 과정이 아니라, 지식 체계의 학습 과정을 통해 획득되는 정보이기 때문인 것으로 보인다. 따라서 분산 가설에 근거한 word2vec 모델은 일부 단어의 대립 관계를 표현하는 데 한계가 있고, 단어의 상하 관계를 제대로 표현하지 못하는 것으로 분석되었다.
대화 속 질문 유사성 분석을 위한 문장 임베딩 자질의 자동 추출 방법
http://doi.org/10.5626/JOK.2019.46.9.909
본 논문은 자연어 문장의 유사성을 분석할 수 있는 문장 임베딩 자질의 자동 추출 방법에 관해 기술한다. 질문 유사성 분석이란 질의 문장을 이해하기 위하여 자연어 질의 문장의 의미적 구조적 유사성을 분석하는 연구를 말하며, 이를 이용하여 질의응답 (Q&A) 및 대화 시스템에서 입력 질문에 대한 답변을 찾는데 활용할 수 있다. 본 논문에서 기술하는 문장의 유사성을 분석하는 방법은 딥러닝 모델을 통해 추출된 문장 임베딩 벡터를 자질로 이용한다. 음절과 실질 형태소와 같은 문장 내 표현의 순차적 정보를 반영하기 위해 순환 신경망(Recurrent Neural Network)을 이용하여 생성한 문장 벡터와 어순과 관계없이 유사한 표현의 등장 패턴을 특징으로 잡기 위한 복잡 신경망 (CNN)을 이용하여 생성한 문장 벡터를 사용한다. 본 논문에서는 은행 서비스와 관련된 대화 문장에서 자동 추출된 문장 임베딩 자질을 이용하여 문장 간 유사성 분석했을 때의 정확성과 품질을 평가한다.
문맥 표현과 셀프 어텐션을 이용한 한국어 영화평 감성 분석
http://doi.org/10.5626/JOK.2019.46.9.901
감성 분석은 특정 대상에 대한 의견을 수집하고 분류하는 과정이다. 그러나 자연어에 포함된 사람의 주관을 파악하는 일은 어려운 일로써, 기존의 감성 단어 사전이나 확률 모델은 이러한 문제를 해결하기 어려웠으나 딥 러닝의 발전으로 문제 해결을 시도할 수 있게 됐다. 셀프 어텐션(self-attention)은 주어진 입력열 자신에 대하여 어텐션을 계산하고 가중치 합으로 문맥 벡터를 만들어 모델링하는 방법이며, 문맥상 비슷한 의미를 가진 단어들 간에 높은 가중치가 계산되는 효과가 있다. 본 논문에서는 사전 학습된 문맥 표현을 한국어 감성 분석에 활용하고, 셀프 어텐션으로 모델링하는 방법을 제안한다. 실험 결과, NSMC의 경우 정확도 89.82%, 다음카카오의 경우 92.25%의 성능을 보였다.
자모 단위 합성곱 신경망 기반 맞춤법 오류가 포함된 자주 묻는 질문 자동 분류
http://doi.org/10.5626/JOK.2019.46.6.563
웹이나 모바일 사용자는 홈페이지에 구축된 자주 묻는 질문 시스템(Frequently Asked Question: FAQ, 이하 FAQ)을 이용하여 원하는 정보를 얻는다. 기존 FAQ 시스템은 검색 모델을 기반으로 입력과 가장 유사하다고 판단되는 질의응답 후보를 사용자에게 보여준다. 하지만 검색 모델은 문서 색인에 의존하기 때문에 입력 문장의 맞춤법 오류에 취약하다. 따라서 본 논문에서는 FAQ 시스템을 문장분류기에 적용하여 맞춤법 오류를 최소화하는 모델을 제안한다. 자모 단위 합성곱 신경망을 이용한 임베딩 계층을 통해 사용자 입력의 맞춤법 오류를 줄이고, 클래스 임베딩과 전방 전달 신경망을 적용하여 분류기의 성능을 높였다. 제안 모델은 457개와 769개의 FAQ 클래스 분류에 대한 실험 결과로 Micro F1 score 기준 각각 81.32%p, 61.11%p의 높은 성능을 보였으며, 모델 예측의 신뢰도를 평가하기 위해 sigmoid 함수를 이용하여 신뢰도를 수치화했다.
멀티헤드 주의집중 기법과 하이웨이 네트워크를 활용한 생물학 개체명 인식
http://doi.org/10.5626/JOK.2019.46.6.544
생물학 개체명 인식이란 생물학 문헌으로부터 질병, 유전자, 단백질과 같은 생물학 개체명을 추출하고 그 종류를 분류하는 작업으로, 생물학 데이터로부터 유의미한 정보를 추출하는데 중요한 역할을 한다. 본 연구에서는 입력 단어의 자질을 자동으로 추출할 수 있는 딥러닝 기반의 Bi-LSTM-CRF 모델을 활용한 개체명 인식 연구를 진행하였다. Multi-head 주의 기제 기법을 적용하여 입력 단어들 간의 관계를 포착하고 관련성이 높은 단어에 주목하여 예측의 성능을 높였다. 또한, 단어 단위 임베딩 벡터 외 문자 단위 임베딩 벡터를 결합하여 입력 임베딩의 표상을 확장하고, 각 표상의 정보 흐름을 학습하기 위해 Highway 네트워크에 적용하였다. 제안하는 모델의 성능을 평가하기 위해 두 개의 영어 생물학 데이터셋으로 비교 실험을 진행하였으며, 그 결과 기존 연구의 모델들보다 향상된 성능을 보였다. 이를 통해 제안하는 방법론이 생물학 개체명 인식 연구에서 효과적인 방법론임을 입증하였다.
대용량 텍스트 자원을 활용한 한국어 형태소 임베딩의 모델별 성능 비교 분석
http://doi.org/10.5626/JOK.2019.46.5.413
단어 임베딩은 컴퓨터가 자연어를 인식할 수 있도록 하는 변환 기법으로 기계번역, 개체명 인식 등 기계학습을 바탕으로 하는 자연어 처리 분야에서 다양하게 사용되고 있다. 단어 임베딩을 생성하는 다양한 단어 임베딩 모델들이 존재하지만 이러한 모델들을 동일한 조건에서 성능을 비교 분석한 연구가 미비하다. 본 논문에서는 한국어 형태소 단위 띄어쓰기를 기반으로 하여 활발하게 사용되고 있는 모델인 Word2Vec의 Skip-Gram과 CBOW, GloVe, FastText의 성능을 비교 분석한다. 뉴스 대용량 말뭉치 및 세종 말뭉치를 바탕으로 실험한 결과 FastText가 가장 높은 성능을 확인할 수 있었다.
K-means 클러스터링 방법과 유사도 측정 기반의 채팅 말뭉치 반자동 확장 방법
http://doi.org/10.5626/JOK.2019.46.5.440
본 논문에서는 영화 자막, 극 대본과 같이 대량의 발화 데이터를 이용하여 채팅 말뭉치를 반자동으로 확장하는 방법을 제안한다. 채팅 말뭉치 확장을 위해 미리 구축된 채팅 말뭉치와 유사도 기법을 이용하여 채팅 유사도를 구하고, 채팅 유사도가 실험을 통해 얻은 임계값보다 크다면 올바른 채팅 쌍이라고 판단하였다. 본 논문에서 제안하는 것은 형태소 단위 임베딩 벡터와 합성곱 신경망 모델을 이용하여 발화 단위 표상을 생성하는 것이다. 그리고 반자동 구축 모델의 속도를 개선하기 위해서 K-means 클러스터링 방법을 적용하여 채팅 말뭉치를 군집, 계산량을 줄일 것을 제안한다. 그 결과 기본 발화 단위 표상생성 방법인 TF를 이용하는 것보다 정확률, 재현율, F1에서 각각 5,16%p, 6.09%p, 5.73%p 각각 상승하여 61.28%, 53.19%, 56.94%의 성능을 도출하였다. 그리고 속도 개선을 위해 발화를 클러스터링하여 속도 면에서도 103배 향상된 채팅 말뭉치 반자동 구축 모델을 구축할 수 있었다.
문장 임베딩 기반 텍스트랭크를 이용한 문서 요약
http://doi.org/10.5626/JOK.2019.46.3.285
문서 요약은 원본 문서가 가진 주요 내용을 유지하는 축약된 크기의 문서를 만들어내는 것이다. 추출 요약은 원문에서 많은 양의 텍스트를 복사하는 것으로 문법과 정확성의 기본 수준을 보장받을 수 있어 과거부터 활발히 연구되어 왔다. 추출 요약에 사용되는 대표적 방법인 텍스트랭크는 단어의 빈도를 통해 그래프의 간선을 계산하므로 문장이 가진 의미적인 정도를 고려하기 어렵다. 이러한 단점을 해결하기 위해 본 논문에서는 문장 임베딩을 사용하는 새로운 텍스트랭크를 제안한다. 다양한 임베딩 평가를 통해 제안 방법이 일반적인 텍스트랭크 방법보다 문장의 의미를 잘 고려한 결과를 출력한다는 것을 확인하였다.
지식베이스 임베딩 및 관계 모델을 활용한 오류 트리플 검출
http://doi.org/10.5626/JOK.2019.46.2.131
최근 인터넷의 발전으로 정보의 양이 늘어나면서 대용량 지식베이스를 이용한 연구에 관심이 많아지는 추세이다. 또한 지식베이스가 다양한 연구에 많이 활용됨에 따라 지식베이스를 완성하는 연구가 진행되고 있다. 하지만 지식베이스 내 오류 트리플을 검출하는 연구가 부족하다. 본 논문에서는 지식베이스 내의 오류 트리플을 검출하기 위해 임베딩 알고리즘을 사용하여 임베딩을 진행한 뒤 클러스터링 한 임베딩 모델과, 트리플 분류의 대표적인 알고리즘인 4가지의 릴레이션 모델을 활용하는 것을 제안한다. 또한, 싱글 임베딩 모델들의 결과를 사용한 임베딩 앙상블 모델과 싱글 릴레이션 모델들의 결과를 사용한 릴레이션 앙상블 모델을 생성하여 모델 검증 지표를 통해 오류 트리플 검출 결과를 비교 측정하였다.
스마트폰 어플리케이션 설치 목록을 이용한 사용자 특성 추론
http://doi.org/10.5626/JOK.2018.45.12.1240
스마트폰의 사용이 보편화됨에 따라 개인화 서비스에 대한 요구가 증가하고 있다. 이에 따라 개인화 서비스를 제공할 때 유용하게 활용될 수 있는 사용자 특성을, 데이터 기반으로 통계 학습을 이용해 추론하는 연구가 활발히 진행되고 있다. 본 연구에서는 사용자의 관심사와 생활습관을 반영하고 있을 뿐만 아니라, 적은 비용으로 수집할 수 있는 어플리케이션 설치 목록으로부터 요인 벡터를 추출하여 사용자 특성을 추론한다. 추론 과정에서는 설치 목록과 더불어 어플리케이션 스토어에서 획득 가능한 메타정보인 카테고리와 설명글을 이용하여 사용자를 표현하는 네 가지 요인 벡터를 만들어 사용한다. 특히, 인공 신경망 기반의 텍스트 임베딩 기법인 Doc2Vec을 설명글에 적용한 요인 벡터를 사용한다. 또한, 요인 벡터 추출에 이용되는 어플리케이션을 선별하는 기준을 제시하여 추론 성능을 높이고자 하였다. 국내 스마트폰 사용자 100명으로부터 데이터를 수집하여 성별, 연령, 연애 상태, 거주형태, 동거 여부, 수입 수준, 지출 수준, 신장, 체중, 종교, 이수 학기, 단과대학을 추론하는 실험을 수행했으며, 제안 기법의 우수성을 확인하였다.