디지털 라이브러리[ 검색결과 ]
부분 임베딩 기반의 지식 완성 기법
http://doi.org/10.5626/JOK.2018.45.11.1168
지식 그래프는 실세계의 개체들과 개체 사이의 관계로 구성된 네트워크를 의미하며, 최근에는 대용량 데이터를 기반으로 구축되고 있다. 대부분의 지식 그래프들은 누락된 엔티티 또는 관계들로 인해 불완전성에 대한 문제점이 존재한다. 이를 해결하기 위해 지난 연구들은 지식 그래프를 다차원 공간상에 임베딩하는 방법을 적용했다. 그러나 이러한 연구들은 지식 그래프가 변화하지 않는다는 가정을 하고 있다. 이로 인해 새로운 트리플이 추가되어 빠르게 진화하는 실세계의 지식 그래프에 적용하기 위해 반복적인 임베딩 모델의 재학습은 고비용의 연산이 요구되며, 실용적이지 못하다. 따라서 본 논문에서는 변화하는 지식 그래프를 대상으로 하는 부분 임베딩 기반의 지식 완성 방법을 제안한다. 지식 완성의 대상이 되는 관심 관계들을 추출하기 위해 온톨로지의 공리와 문맥 정보를 활용했으며, 이를 기반으로 엔티티와 관계들을 임베딩하고 학습하여 지식 완성을 수행했다. 제안하는 방법의 성능을 측정하기 위해 Freebase와 WiseKB 데이터셋을 대상으로 최신 지식 완성 연구들과의 비교 실험을 진행하였고, 평균적으로 학습시간이 약 49%∼90% 감소했으며, 전체적인 성능이 약 6.7% 증가하는 것을 확인했다.
지식 베이스 임베딩을 활용한 지식 완성 모델링 기법
최현영, 홍지훈, 이완곤, 바트셀렘, 전명중, 박현규, 박영택
http://doi.org/10.5626/JOK.2018.45.9.895
최근 웹 데이터를 기반으로 자동적으로 지식베이스를 구축하는 방법들이 연구되고 있지만, 웹데이지터의 불완전성으로 인해 일부 데이터가 누락되거나 다른 데이터와의 연결이 부족한 경우가 발생한다. 이러한 문제를 해결하기 위해 기존 연구들은 자연어 임베딩을 기반으로 인공 신경망을 통해 학습하는 방법들을 제안했다. 하지만 실제로 사용되는 많은 지식베이스의 경우 자연어 말뭉치가 존재하지 않아 엔티티 임베딩에 어려움이 있다. 따라서 본 논문에서는 이러한 문제점을 해결하기 위해 지식 베이스의 RDF 데이터를 문장 형태의 RDF-Sentence로 변환 후 임베딩에 사용하여 단어 벡터를 생성하고 신경망을 사용하는 지식 완성 기법을 제안한다. 본 논문에서는 제안하는 방법의 성능을 측정하기 위해 트리플 분류 실험을 진행했다. 기존 NTN 모델과 비교 실험을 수행하였고, 기존 연구보다 평균적으로 15% 높은 정확도를 얻었다. 또한, 한국어 최대 지식 베이스인 WiseKB 지식 베이스에 적용하여 88%의 정확도를 얻었다.
단어 간의 상대적 위치정보를 이용한 단어 임베딩
http://doi.org/10.5626/JOK.2018.45.9.943
자연어처리에 딥 러닝을 적용하기 위해 사용되는 Word embedding은 단어를 벡터 공간상에 표현하는 것으로 차원축소 효과와 더불어 유사한 의미의 단어는 유사한 벡터 값을 갖는다는 장점이 있다. 이러한 word embedding은 대용량 코퍼스를 학습해야 좋은 성능을 얻을 수 있다. 그러나 기존에 자주 사용되던 word2vec 모델은 대용량 코퍼스 학습을 위해 모델을 단순화 하여 단어의 등장 비율을 주로 학습하게 되어 단어 간의 상대적 위치정보를 이용하지 않는다는 단점이 있다. 본 논문에서는 기존의 word embedding 학습 모델을 단어 간의 상대적 위치정보를 이용하여 학습할 수 있도록 수정하였다. 실험 결과 단어 간의 상대적 위치정보를 이용하여 word embedding을 학습 하였을 경우 word-analogy의 성능이 향상되었다.
CNN 기반 관계 추출 모델의 성능 향상을 위한 다중-어의 단어 임베딩 적용
http://doi.org/10.5626/JOK.2018.45.8.816
관계 추출이란 문장 내 두 개체간의 관계를 분류하는 것으로, 많은 연구들이 관계추출 모델을 설계함에 있어 원격 지도학습 방식을 이용하고 있다. 그리고 최근 딥러닝의 발전으로 다양한 연구에서 관계 추출 모델 설계 시 CNN 또는 RNN 등의 딥러닝 모델을 적용하는 것이 주요 흐름으로 발전하고 있다. 그러나 기존 연구들에서는 모델 학습의 입력으로 사용되는 단어 임베딩의 동형이의어 문제를 해결하지 않았다는 단점이 있다. 따라서 서로 다른 의미를 가진 동형이의어가 하나의 임베딩 값으로 모델 학습이 진행되고, 그에 따라 단어의 의미를 정확히 파악하지 못한 채 관계 추출 모델을 학습한다고 볼 수 있다. 본 연구에서는 다중-어의 단어 임베딩을 적용한 관계 추출 모델을 제안한다. 다중-어의 단어 임베딩 학습을 위해 CoreNet Concept 기반의 어의 중의성 해소 모듈을 활용하였고, 관계추출 모델은 문장 내 주요 키워드를 스스로 학습하는 CNN 모델과 PCNN 모델 2가지를 활용하였다.
문서 분류를 위한 신경망 모델에 적합한 텍스트 전처리와 워드 임베딩의 조합
http://doi.org/10.5626/JOK.2018.45.7.690
최근 문서 분류를 해결하는데 신경망 모델과 함께 워드 임베딩을 주로 사용한다. 연구자들은 성능을 높이기 위해 새로운 신경망 모델을 디자인하거나 모델 파라미터를 최적화하는데 시간을 많이 할애한다. 하지만, 많은 연구들은 특별한 이유 없이 특정한 워드 임베딩 모델을 사용하고 전처리에 대한 자세한 설명을 하지 않는 점과 같이 전처리와 워드 임베딩에 대해서는 그다지 신경을 쓰고 있지 않다. 본 연구는 성능을 향상시키는 추가적인 요소로 적합한 전처리와 워드 임베딩 조합을 찾는 것임을 말하고자 한다. 실험은 이들의 가능한 조합들을 비교실험하는 것과 제로/랜덤 패딩, 미세 조정에 의한 워드 임베딩 재학습 여부도 같이 실험한다. 또한, 사전에 학습한 워드 임베딩 모델들과 함께 평균, 랜덤, 학습 데이터로 학습한 임베딩들도 같이 사용한다. OOV(Out of Vocabulary)단어 통계를 기준으로 실험한 결과로부터 위와 같은 실험들의 필요성과 전처리와 워드 임베딩의 최적의 조합을 제시한다.
형태소 기반 효율적인 한국어 단어 임베딩
http://doi.org/10.5626/JOK.2018.45.5.444
기존의 word2vec(continuous bag-of-words 또는 skip-gram)이나 Glove 등의 단어 임베딩 모델은 단어의 구조나 단어 내부의 의미를 학습하지 못한다. 이는 한국어과 같은 교착어들을 학습하는데 있어서 큰 한계로 작용한다. 본 논문에서는, 기존의 skip-gram 모델을 확장하여 단어 벡터를 형태소들의 벡터의 합으로 정의하고, 형태소들의 벡터를 학습하는 새로운 모델을 제안하였다. 학습된 벡터의 성능을 평가하기 위하여 단어 유사도 평가와 단어 유추 평가를 수행하였고, 다른 자연어 처리 응용에 학습한 벡터를 사용함으로써 얼마나 성능이 향상되는지 실험하였다.
생성 기반 질의응답 채팅 시스템 구현을 위한 지식 임베딩 방법
http://doi.org/10.5626/JOK.2018.45.2.134
채팅 시스템은 사람의 말을 기계가 이해하고 적절한 응답을 하는 시스템이다. 채팅 시스템은 사용자의 간단한 정보 검색 질문에 대답해야 하는 경우가 있다. 그러나 기존의 생성 채팅 시스템들은 질의응답에 필요한 정보인 지식 개체(트리플 형태 지식에서의 주어와 목적어)의 임베딩을 고려하지 않아 발화에 나타나는 지식 개체가 다르더라도 같은 형태의 답변이 생성되었다. 본 논문에서는 생성 기반 채팅시스템의 질의응답 정확도를 향상시키기 위한 지식 임베딩 방법을 제안한다. 개체와 유의어의 지식 임베딩을 위해 샴 순환 신경망을 사용하며 이를 이용해 주어와 술어를 인코딩 하고 목적어를 디코딩하는 sequence-to-sequence 모델의 성능을 향상 시켰다. 자체 구축한 채팅데이터를 통한 실험에서 제안된 임베딩 방법은 종래의 합성곱 신경망을 통한 임베딩 방법 보다 12.48% 높은 정확도를 보였다.
워드 임베딩과 유의어를 활용한 단어 의미 범주 할당
http://doi.org/10.5626/JOK.2017.44.9.946
의미역 결정은 서술어와 논항들 사이의 의미 관계를 결정하는 문제이다. 의미역 결정을 위해 의미 논항 역할 정보와 의미 범주 정보를 사용해야 한다. 세종 전자사전은 의미역을 결정하는데 사용한 격틀 정보가 포함되어 있다. 본 논문에서는 워드 임베딩과 유의어를 활용하여 세종 전자사전을 확장하는 방법을 제시한다. 연관 단어가 유사한 벡터 표현을 갖도록 하기 위해 유의어 사전의 정보를 사용하여 재구성된 벡터를 생성한다. 기존의 워드 임베딩과 재구성된 벡터를 사용하여 동일한 실험을 진행한다. 워드 임베딩을 이용한 벡터로 단어의 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 32.19%이고, 확장한 의미 범주 할당의 시스템 성능은 51.14%이다. 재구성된 벡터를 이용한 단어의 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 33.33%이고, 확장한 의미범주 할당의 시스템 성능은 53.88%이다. 의미 범주가 할당되지 않은 새로운 단어에 대해서 논문에서 제안한 방법으로 의미 범주를 할당하여 세종 전자사전의 의미 범주 단어 확장에 대해 도움이 됨을 증명하였다.
자연어처리 분야에서의 임베딩 모델 평가 연구
http://doi.org/10.5626/JOK.2025.52.2.141
본 논문에서는 자연어처리(NLP) 분야의 주요 과제인 유사 텍스트 분석, 텍스트 분류, 질의 응답, 군집 분석 과제에 임베딩 기술을 적용하고, 그 성능을 평가하였다. 최근, 자연어처리 분야에서는 대규모 언어 모델의 발전과 함께 임베딩 기술이 다양한 응용 분야에서 중요한 역할을 하고 있다. 현재까지 여러 종류의 임베딩 모델이 공개되었고, 본 논문에서는 공개된 여러 임베딩 모델에 대한 성능을 평가했다. 이를 위해, 선정한 각 과제의 중간 과정으로써 임베딩 모델을 통한 벡터 값을 활용하여 각 과제별 임베딩 모델의 성능을 평가한다. 실험 데이터 셋은 공개된 한국어 및 영어 데이터 셋을 활용하였고, NLP 과제는 5가지로 정의하였다. 특히, 다국어, 교차 언어, 긴 문서 검색 등에서 탁월한 성능을 보인 BGE-M3 모델의 성능에 주목했다. 실험 결과, BG3-M3 모델이 3개의 NLP 과제에서 우수한 성능을 보였다. 본 연구의 결과는 최근의 검색 증강 생성(Retrieval-Augmented Generation)에서 유사 문장 또는 유사 문서를 찾기 위해 활용되는 임베딩 모델을 선택하는 데 있어 방향을 제시할 것으로 기대한다.