디지털 라이브러리[ 검색결과 ]
키워드와 문장 임베딩을 활용한 조항별 분류모델 기반 계약서 적격성 검증
http://doi.org/10.5626/JOK.2022.49.10.848
최근에는 계약서를 포함한 법률 문서들을 대량으로, 빠르고 정확하게 처리하기 위하여 인공지능을 활용한 자동화된 분석 방법이 요구된다. 계약서는 그 안에 필수적인 조항들이 모두 포함되었는지, 어느 한 쪽에 불리한 조항은 없는지 등을 확인하여 적격성을 검증할 수 있다. 이때 계약서를 이루는 조항들은 계약서의 종류와 관계없이 매우 정형적이고 반복적인 경우가 많다. 본 연구에서는 이러한 성격을 이용하여 계약서 내 조항별 분류 모델을 구축하였으며, 계약서의 관습적인 요구사항에 기반하여 구성한 키워드 임베딩을 구축하고 이를 BERT 임베딩과 결합하여 사용한다. 이때 BERT 모델은 한국어 사전학습모델을 법률 도메인 문서를 이용하여 미세 조정한 것이다. 각 조항의 분류 결과는 정확도 90.57과 90.64, F1 점수 93.27과 93.26으로 우수한 수준이며, 이렇게 계약서를 이루는 각 조항이 어떤 필수조항에 해당되는지의 예측 결과를 통해 계약서의 적격성을 검증할 수 있다.
개체 유형 정보를 활용한 지식 그래프 임베딩
http://doi.org/10.5626/JOK.2022.49.9.773
지식 그래프 임베딩은 그래프의 구조적 특성을 반영하여 개체와 관계를 특성 공간에 나타내는 기술이다. 대부분의 지식 그래프 임베딩 모델은 그래프 구조 이외의 정보를 가정하지 않고 특징 벡터를 생성한다. 하지만 실생활과 밀접한 지식 그래프는 개체의 유형 정보 등 추가적인 정보를 얻을 수 있다. 본 논문에서는 개체의 유형이 클러스터의 역할을 수행할 수 있다는 점에 착안하여, 유형 정보를 반영할 수 있는 손실 함수를 통한 지식 그래프 임베딩 모델을 제시한다. 또한, 지식 그래프 내 관계의 주어/술어에 해당하는 유형이 제한적이라는 관찰을 토대로 개체 유형 제한에 특화된 네거티브 샘플링 기법을 제시한다. 본 논문에서 제시한 모델에 대한 링크 예측을 평가하기 위해 개체 유형 제한을 가진 지식 그래프인 SMC 데이터 셋을 생성하여 실험을 진행하였다. 링크 예측 결과는 본 모델이 네 개의 베이스라인 모델과 비교해서 뛰어난 성능을 보이는 것을 확인하였다.
시각적 관계 예측을 위한 계산 효율적인 조합적 전이 표현 학습법
http://doi.org/10.5626/JOK.2022.49.7.544
장면 그래프는 이미지에 존재하는 객체 사이의 고차원 시각 관계를 표현하기 위해 널리 활용된다. 본 논문에서는 장면 그래프를 자동으로 구축하기위해 객체 사이의 시각 관계를 감지하고 그 관계를 술어로 예측하는 알고리즘을 제안한다. 우리는 기존에 제시된 텍스트 기반 지식 그래프 임베딩 TransR에서 영감을 받아 i) 시각적 관계의 구성적 관점을 고려하기 위한 잠재 관계 부분 공간을 정의하고 ii) 각 부분 공간에서 객체 표현 사이의 전이적 제약을 적용하는 CompTransR을 제시한다. 장면 그래프 생성을 위한 대표적인 벤치마크 데이터인 VRD, VG200 및 VrR-VG에서 제안하는 방법론은 기제시된 모델과 비교하여 학습 복잡도를 줄이는 동시에 우수한 성능을 보였다. 또한, 높은 수준의 시각-언어 추론을 요구하는 문제 중 하나인 이미지 캡션 검색에 장면 그래프가 효과적으로 적용될 수 있음을 보이고, 제안하는 알고리즘으로 예측된 술어 표현이 검색 성능을 높이는데 도움이 됨을 확인하였다.
노드와 링크간의 상호작용을 동시에 반영한 그래프 어텐션 네트워크 기반 지식 그래프 임베딩
http://doi.org/10.5626/JOK.2022.49.7.555
지식 그래프는 실제 세계의 다양한 지식들을 노드와 링크 기반의 트리플 형태로 표현하는 지식구조로서 검색, 질의 응답 등의 여러 분야에서 유용하게 활용된다. 이런 지식 그래프는 불완전하며, 누락된 다른 관계들을 찾기 위해 노드와 링크를 저차원 벡터공간에 효과적으로 표현하는 임베딩 기법들이 많이 연구되었다. 최근 뉴럴 네트워크 기반의 지식 그래프 링크 예측 방법이 많이 연구되었지만, 기존 모델들은 노드에 대한 트리플의 중요도를 구할 때 노드와 링크를 독립적으로 고려하므로 트리플 내의 노드와 링크의 상호작용이 잘 반영하기 어렵다. 본 논문에서는 합성연산자를 이용하여 노드와 링크를 동시에 고려하여 트리플 단위의 중요도를 구하는 임베딩 방법을 제안하며 해당 모델이 지식 그래프 링크 예측에 우수한 성능을 보임을 증명한다.
레이블 기반의 핵심 자질 학습을 통한 문서 범주화에서의 효과적인 전이학습 방법론
http://doi.org/10.5626/JOK.2022.49.3.214
전이학습을 이용한 자연어처리는 대용량의 일반적인 데이터를 이용하여 사전학습된 모델을 downstream task에서 사용함으로써 성능이 향상되었다. 하지만 사전학습에서 사용되는 데이터는 적용 영역과 무관한 데이터이기에 적용 영역에 특화된 자질이 아닌 일반적인 자질을 학습하는 문제점이 있다. 따라서 본 논문에서는 사전 학습 모델의 임베딩이 downstream task에 특화된 자질들을 학습하도록 유도한다. 제안 방법으로는 샘플링된 data pair의 대조 학습과 더불어 label embedding과의 대조 학습을 통해 downstream task의 label정보를 학습하는 방법을 제안한다. 제안 방법의 성능입증을 위해 문장 분류 데이터셋에 대한 실험을 진행하고 임베딩에 대한 PCA(Principal component analysis)와 K-means clustering을 통하여 downstream task의 자질들이 학습되었는지 정성평가를 진행한다.
날씨 특성을 고려한 그래프 임베딩 기반 관심 장소 추천
http://doi.org/10.5626/JOK.2022.49.3.221
관심 장소 추천은 위치 기반 서비스들이 빠르게 증가하면서 사용자들에게 그들의 위치와 관련된 적절한 정보를 제공하고자 활발히 연구되고 있는 분야이다. 최근 TransRec과 같이 그래프 임베딩을 사용한 번역 기반 추천 시스템이 큰 관심을 받고 있다. 본 논문은 TransRec이 사용자와 장소 사이의 복잡한 관계를 표현하기 어렵고, 관계 임베딩이 날씨 특성을 고려하지 않고 고정되어 있다는 단점을 발견하였다. TransRec의 단점을 극복하고자, 날씨를 고려한 그래프 임베딩 기반 관심 장소 추천 기법 WAPTRec을 제안한다. WAPTRec은 범주 투영 행렬과 어텐션 메커니즘을 사용하여 동일한 장소 임베딩을 사용자마다 다르게 표현할 수 있다. 또한, 사용자의 과거 이동 기록과 장소의 범주, 그리고 날씨 특성을 활용하여 더 높은 추천 정확도를 제공한다. 공개 데이터 셋을 이용한 실험을 통해 WAPTRec이 기존의 번역 기반 추천 방법들보다 뛰어남을 보인다.
MASS와 복사 및 커버리지 메커니즘과 길이 임베딩을 이용한 한국어 문서 요약
http://doi.org/10.5626/JOK.2022.49.1.25
문서 요약은 주어진 문서로부터 중요하고 핵심적인 정보를 포함하는 요약문을 만들어내는 기술로, sequence-to-sequence 모델을 사용한 end-to-end 방식의 생성 요약 모델이 주로 연구되고 있다. 최근에는 대용량 단일 언어 데이터 기반 사전학습 모델을 이용하여 미세조정하는 전이 학습 방법이 자연어 처리 분야에서 활발히 연구되고 있다. 본 논문에서는 MASS 모델에 복사 메커니즘 방법을 적용하고, 한국어 언어 생성을 위한 사전학습을 수행한 후, 이를 한국어 문서 요약에 적용하였다. 또한, 요약 모델 개선을 위해 커버리지 메커니즘과 길이 임베딩을 추가로 적용하였다. 실험 결과, MASS 모델에 복사 및 커버리지 메커니즘 방법을 적용한 한국어 문서 요약 모델이 기존 모델들보다 높은 성능을 보였고, 길이 임베딩을 통해 요약문의 길이를 조절할 수 있음을 보였다.
감성 정보를 반영한 워드 임베딩을 위한 학습 데이터 자동 생성 방안
http://doi.org/10.5626/JOK.2022.49.1.42
워드 임베딩(Word Embedding)이란 단어를 벡터로 표현하는 방법이다. 하지만 기존 워드 임베딩 방법들은 함께 등장한 단어들을 예측하기 때문에 감성이 다른 단어여도 유사한 벡터로 표현된다. 이를 사용하여 감성 분석 모델을 구축할 경우, 비슷한 패턴의 문장들을 같은 감성으로 분류할 가능성이 있으며, 이는 감성 분석 모델의 성능을 저하하는 요인 중 하나가 된다. 본 논문에서는 이와 같은 문제점을 해결하기 위하여 형태소 분석, 의존 구문 분석, 감성 사전을 활용하여 감성 정보를 반영한 워드 임베딩을 위한 학습 데이터를 자동으로 생성하는 방안을 제안한다. 제안 방안으로 생성된 학습 데이터로 워드 임베딩을 하고, 감성 분석 모델의 입력으로 사용한 결과, 기존 워드 임베딩 방법을 사용했을 때보다 향상된 성능을 보였으며, 전이 학습 모델보다 비슷하거나 높은 성능을 보였다.
GPT-2를 이용한 지식 그래프 완성
http://doi.org/10.5626/JOK.2021.48.12.1281
지식 그래프는 많은 인공지능 작업에서 중요한 자원이 된다. 불완전한 지식 그래프를 지식 완성을 하는 많은 연구들이 진행되고 있으며, 그 중에서도 링크 예측, 관계 예측 등을 하여 지식 완성을 하는 연구에 대한 관심이 높아지고 있다. 인공지능의 자연어 처리에서 가장 화제가 되는 언어 모델에는 BERT, GPT-2가 있으며 그 중 BERT로 지식 완성 문제를 해결하고자 하는 KG-BERT가 있다. 본 논문에서는 최근 인공지능의 언어 모델에서 가장 큰 화제인 GPT-2를 활용하여 지식 완성 문제를 해결해 보고자 한다. 언어 모델인 GPT-2를 활용하여 지식 완성 문제를 해결하기 위한 방법으로 트리플 정보 기반지식 완성, 경로 및 트리플 기반 지식 완성을 제안하고 설명하였다. 이 본 논문에서 제안하는 모델은 KG-GPT2로 정의하였으며, 지식 완성 성능을 평가하기 위하여 TransE, TransR, KG-BERT, KG-GPT2의 링크 예측, 관계 예측 결과를 비교하는 방식으로 실험을 진행하였다. 링크 예측의 경우 WN18RR, FB15k-237, UMLS 데이터셋을 사용하였고, 관계 예측의 경우 FB15K를 사용하였다. 실험 결과로, KG-GPT2의 경로 및 트리플 기반 지식 완성에서 링크 예측의 경우 UMLS를 제외한 모든 실험 데이터셋에 대하여 가장 우수한 성능을 기록하였다. KG-GPT2의 경로 및 트리플 기반 지식 완성에서 모델의 관계 예측 작업 또한 FB15K 데이터셋에 대하여 가장 우수한 성능을 기록하였다.
보행자 이미지에서 지역 다중규모 특징 임베딩 추출을 위한 어텐션 피라미드 이용의 보행자 재식별
http://doi.org/10.5626/JOK.2021.48.12.1305
본 논문에서는 보행자 이미지로부터 불필요한 배경 잡음을 배제시키며 정교한 지역 특징 임베딩(local feature embedding)을 추출하기 위해 어텐션 매커니즘을 결합시킨 이중 피라미드를 이용하는 새로운 보행자 재식별 방법을 제안한다. 규모 피라미드와 지역 피라미드로 구성된 이중 피라미드에 공간 어텐션을 적용해 특징 임베딩에 불필요한 배경 요소들이 반영되는 것을 억제시키고, 채널 어텐션을 적용해 추출된 다중규모 특징 중에서 상대적으로 중요도가 높은 것으로 지역 특징 임베딩이 구성되도록 한다. 실험에서는 각 구성 피라미드에 공간 어텐션과 채널 어텐션이 적용되는 효과를 비교함으로써 각 어텐션의 적용에 따른 재식별 정확도 변화를 관찰하고, 이를 기존의 우수 연구들과 비교하였다. 실험 결과에 따르면 제안 기법은 최대 99.4%의 1순위 정확도를 보였으며, 이는 기존 연구들보다 최소 약 0.2%, 최대 약 13.8%까지 높은 것으로 분석되었다.