검색 : [ keyword: Word Embedding ] (22)

키워드와 문장 임베딩을 활용한 조항별 분류모델 기반 계약서 적격성 검증

이상아, 김석기, 김은진, 강민지, 신효필

http://doi.org/10.5626/JOK.2022.49.10.848

최근에는 계약서를 포함한 법률 문서들을 대량으로, 빠르고 정확하게 처리하기 위하여 인공지능을 활용한 자동화된 분석 방법이 요구된다. 계약서는 그 안에 필수적인 조항들이 모두 포함되었는지, 어느 한 쪽에 불리한 조항은 없는지 등을 확인하여 적격성을 검증할 수 있다. 이때 계약서를 이루는 조항들은 계약서의 종류와 관계없이 매우 정형적이고 반복적인 경우가 많다. 본 연구에서는 이러한 성격을 이용하여 계약서 내 조항별 분류 모델을 구축하였으며, 계약서의 관습적인 요구사항에 기반하여 구성한 키워드 임베딩을 구축하고 이를 BERT 임베딩과 결합하여 사용한다. 이때 BERT 모델은 한국어 사전학습모델을 법률 도메인 문서를 이용하여 미세 조정한 것이다. 각 조항의 분류 결과는 정확도 90.57과 90.64, F1 점수 93.27과 93.26으로 우수한 수준이며, 이렇게 계약서를 이루는 각 조항이 어떤 필수조항에 해당되는지의 예측 결과를 통해 계약서의 적격성을 검증할 수 있다.

레이블 기반의 핵심 자질 학습을 통한 문서 범주화에서의 효과적인 전이학습 방법론

김균엽, 강상우

http://doi.org/10.5626/JOK.2022.49.3.214

전이학습을 이용한 자연어처리는 대용량의 일반적인 데이터를 이용하여 사전학습된 모델을 downstream task에서 사용함으로써 성능이 향상되었다. 하지만 사전학습에서 사용되는 데이터는 적용 영역과 무관한 데이터이기에 적용 영역에 특화된 자질이 아닌 일반적인 자질을 학습하는 문제점이 있다. 따라서 본 논문에서는 사전 학습 모델의 임베딩이 downstream task에 특화된 자질들을 학습하도록 유도한다. 제안 방법으로는 샘플링된 data pair의 대조 학습과 더불어 label embedding과의 대조 학습을 통해 downstream task의 label정보를 학습하는 방법을 제안한다. 제안 방법의 성능입증을 위해 문장 분류 데이터셋에 대한 실험을 진행하고 임베딩에 대한 PCA(Principal component analysis)와 K-means clustering을 통하여 downstream task의 자질들이 학습되었는지 정성평가를 진행한다.

감성 정보를 반영한 워드 임베딩을 위한 학습 데이터 자동 생성 방안

이다희, 이원민, 온병원

http://doi.org/10.5626/JOK.2022.49.1.42

워드 임베딩(Word Embedding)이란 단어를 벡터로 표현하는 방법이다. 하지만 기존 워드 임베딩 방법들은 함께 등장한 단어들을 예측하기 때문에 감성이 다른 단어여도 유사한 벡터로 표현된다. 이를 사용하여 감성 분석 모델을 구축할 경우, 비슷한 패턴의 문장들을 같은 감성으로 분류할 가능성이 있으며, 이는 감성 분석 모델의 성능을 저하하는 요인 중 하나가 된다. 본 논문에서는 이와 같은 문제점을 해결하기 위하여 형태소 분석, 의존 구문 분석, 감성 사전을 활용하여 감성 정보를 반영한 워드 임베딩을 위한 학습 데이터를 자동으로 생성하는 방안을 제안한다. 제안 방안으로 생성된 학습 데이터로 워드 임베딩을 하고, 감성 분석 모델의 입력으로 사용한 결과, 기존 워드 임베딩 방법을 사용했을 때보다 향상된 성능을 보였으며, 전이 학습 모델보다 비슷하거나 높은 성능을 보였다.

GPT-2를 이용한 지식 그래프 완성

김상운, 신원철

http://doi.org/10.5626/JOK.2021.48.12.1281

지식 그래프는 많은 인공지능 작업에서 중요한 자원이 된다. 불완전한 지식 그래프를 지식 완성을 하는 많은 연구들이 진행되고 있으며, 그 중에서도 링크 예측, 관계 예측 등을 하여 지식 완성을 하는 연구에 대한 관심이 높아지고 있다. 인공지능의 자연어 처리에서 가장 화제가 되는 언어 모델에는 BERT, GPT-2가 있으며 그 중 BERT로 지식 완성 문제를 해결하고자 하는 KG-BERT가 있다. 본 논문에서는 최근 인공지능의 언어 모델에서 가장 큰 화제인 GPT-2를 활용하여 지식 완성 문제를 해결해 보고자 한다. 언어 모델인 GPT-2를 활용하여 지식 완성 문제를 해결하기 위한 방법으로 트리플 정보 기반지식 완성, 경로 및 트리플 기반 지식 완성을 제안하고 설명하였다. 이 본 논문에서 제안하는 모델은 KG-GPT2로 정의하였으며, 지식 완성 성능을 평가하기 위하여 TransE, TransR, KG-BERT, KG-GPT2의 링크 예측, 관계 예측 결과를 비교하는 방식으로 실험을 진행하였다. 링크 예측의 경우 WN18RR, FB15k-237, UMLS 데이터셋을 사용하였고, 관계 예측의 경우 FB15K를 사용하였다. 실험 결과로, KG-GPT2의 경로 및 트리플 기반 지식 완성에서 링크 예측의 경우 UMLS를 제외한 모든 실험 데이터셋에 대하여 가장 우수한 성능을 기록하였다. KG-GPT2의 경로 및 트리플 기반 지식 완성에서 모델의 관계 예측 작업 또한 FB15K 데이터셋에 대하여 가장 우수한 성능을 기록하였다.

LDA와 WMD 기반의 공간 변환을 이용한 효과적인 문서 클러스터링 방법

김용담, 정성원

http://doi.org/10.5626/JOK.2021.48.9.1052

기존의 TF-IDF 기반의 문서 클러스터링 기법은 문서의 문맥 정보인 co-occurrence와 word-order에 대한 정보를 충분히 활용하지 못하고, “차원의 저주”로 인해 성능이 저하되는 문제가 있다. 이를 극복하기 위해서 워드 임베딩 벡터를 가중 평균을 하거나, Word Mover‘s Distance(WMD)를 사용한 기법들이 제안되었는데 제안된 기법들은 문서 간 분류에서는 좋은 성능을 보이지만, 문서 집단을 파악해야 하는 문서 클러스터링 에서는 좋은 성능을 보이지 못했다. 따라서 본 연구에서는 LDA를 활용하여 문서집단을 집단의 대표 문서인 토픽 문서로 새롭게 정의하여 토픽 문서를 기반으로 WMD를 계산하는 것으로 기존 문제를 해결한다. 하지만 WMD가 많은 계산량을 필요로 하기 때문에, 이를 해결하기 위해 각 문서를 토픽 문서와의 WMD값을 축으로 하는 저차원 공간으로 매핑하는 하는 것으로 계산량을 줄이면서 충분한 성능을 보이는 공간 변환 기법을 제시한다.

사전 학습된 신경망 언어모델 기반 다중 임베딩 조합을 통한 소재 및 화학분야 개체명 인식 성능 비교 연구

이명훈, 신현호, 전홍우, 이재민, 하태현, 최성필

http://doi.org/10.5626/JOK.2021.48.6.696

최근 소재 및 화학분야의 급속한 발전으로 해당 분야 관련 학술 문헌이 기하급수적으로 늘어나고 있다. 이에 기존의 축적된 방대한 데이터에서 유의미한 정보를 추출하기 위한 연구들이 진행되고 있으며, 그 방법론 중 하나로 개체명 인식이 활용되고 있다. 소재 및 화학분야 개체명 인식은 학술 문헌에서 소재, 물성 정보, 실험 조건 등과 같은 정형화된 개체를 추출하고, 그 종류를 분류하는 작업이다. 본 논문에서는 신경망 언어 모델의 사전 훈련 없이 기존의 공개된 언어 모델을 임베딩 조합과 Bi-direction LSTM-CRF 모델을 사용하여 소재 및 화학분야 개체명 인식을 연구하였다. 그 결과 가장 성능이 좋은 조합을 도출하였고 그 이유를 분석하였다. 추가적으로 사전 학습 언어 모델 자체를 개체명 인식 모델로 사용하여 미세조정을 통해 성능을 비교하였다. 이를 통해 기존의 공개된 사전 학습 언어 모델들로 구성한 다중 임베딩 조합이 소재 및 화학분야 개체명 인식에서 유의미한 결과를 도출할 수 있음을 증명하였다.

인기 클립 탐지를 위한 트위치 이모트 임베딩 방법

송현호, 박건우, 차미영

http://doi.org/10.5626/JOK.2020.47.12.1153

실시간 스트리밍에서 시청자 반응을 효과적으로 이해하기 위해, 이 연구는 트위치(Twitch.tv) 이모트의 의미를 효과적으로 학습하는 임베딩 방법을 제시한다. 제안한 방법은 먼저 텍스트와 이모트 임베딩 행렬을 따로 학습한 뒤 두 임베딩 결과를 하나로 병합한다. 트위치에 공유된 2,220,761건의 클립 영상을 이용해, 이 연구는 두 가지 실험을 수행한다: 군집 및 클립 인기도 예측. 실험 결과는 이 방법이 비슷한 의미의 감정이 포함된 군집을 발견할 수 있을 뿐 아니라, 인기 클립을 잘 분류할 수 있음을 보인다. 미래 연구는 실시간 스트리밍 하이라이트 예측을 위해 제안한 이모트 임베딩 방법을 활용할 수 있을 것이다.

한국어 말덩이 정의와 구묶음: 한국어 말덩이 부착 말뭉치와 Bi-LSTM/CRFs 모델을 활용하여

남궁영, 김창현, 천민아, 박호민, 윤호, 최민석, 김재균, 김재훈

http://doi.org/10.5626/JOK.2020.47.6.587

한국어 의존구조를 분석하는 데에는 몇 가지 고질적인 문제가 있다. 그 중 하나는 중심어 위치문제이고 다른 하나는 구성성분의 단위 문제이다. 이와 같은 문제는 구묶음을 수행함으로써 어느 정도는 해결된다. 구묶음은 형태소 분석과 구문분석의 중간 단계에 위치하면서 말덩이라 하는 구성성분을 찾는 과정이다. 본 논문에서는 한국어 말덩이의 정의와 의의를 살펴보고 한국어 말덩이 부착 말뭉치를 구축한다. 또한 본 논문에서는 구축된 말뭉치와 Bi-LSTM/CRFs를 이용한 한국어 구묶음을 제안한다. 실험을 통해서 제안된 구묶음 모델은 98.54%의 F1점수를 보여 실용적으로 사용할 수 있을 것으로 판단된다. 또한 다양한 입력 표상에 따른 성능을 분석하여 fastText가 가장 좋은 성능을 보였다. 또한 오류 분석을 통해 제안된 시스템의 문제를 분석하여 향후 시스템 개선에 적극 활용할 계획이다.

임베딩 기법을 이용한 문맥의존 철자오류 교정 성능의 비교

이정훈, 김민호, 권혁철

http://doi.org/10.5626/JOK.2020.47.2.147

본 논문에서는 임베딩(embedding) 기법들을 이용하여 문맥의존 철자오류 교정에 적용하고 각 기법의 성능을 비교한다. 임베딩 학습을 통해 얻은 단어의 벡터를 사용하여 교정 대상 단어와 주변 문맥단어 간의 거리(distance)를 비교하여 교정한다. 논문에서는 학습 말뭉치(corpus)에 포함되어 있지 않은 단어(out of vocabulary)의 처리와 교정 단어의 주변 문맥 정보를 잘 반영하여 교정 성능을 높이려 한다. 교정에 사용하는 임베딩 기법의 종류는 단어 기반의 임베딩(word embeding)과 문맥정보를 반영하는 임베딩(contextual embedding)으로 나뉜다. 본 논문에서는 앞서 제시한 두 가지 향상 목표를 초점으로 임베딩 기법을 적용하여 교정실험을 하였으며, 신용 있는 교정 성능을 얻을 수 있었다.

Word2vec 모델로 학습된 단어 벡터의 의미 관계 분석

강형석, 양장훈

http://doi.org/10.5626/JOK.2019.46.10.1088

자연어 처리를 이용한 인공 지능 활용이 증가하면서 단어 임베딩에 대한 중요성이 증가하고 있다. 이 논문에서는 단어 임베딩에 활용되는 word2vec 모델이 단어들 간의 대립 및 상하 관계를 표현하는 능력을 군집화 특성과 t-SNE 분포를 이용하여 정성적으로 분석하였다. 이를 위하여 10가지 범주에 속하는 단어들에 대해서 K-Means 알고리즘에 따라서 군집화를 실시하였다. 단어의 대립 관계는 일부 제대로 표현되지 않는 경우가 발생하였다. 이는 일부 대립 관계에 있는 단어들이 다수의 공통적인 속성을 갖고 있으면서 소수의 대립적 속성만을 갖고 있기 때문으로 보인다. 또한, 단어의 상하 관계는 word2vec 모델에서 전혀 반영되지 않음이 확인되었다. 그 원인은 단어의 상하 관계가 언어의 자연스러운 습득 과정이 아니라, 지식 체계의 학습 과정을 통해 획득되는 정보이기 때문인 것으로 보인다. 따라서 분산 가설에 근거한 word2vec 모델은 일부 단어의 대립 관계를 표현하는 데 한계가 있고, 단어의 상하 관계를 제대로 표현하지 못하는 것으로 분석되었다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr