디지털 라이브러리[ 검색결과 ]
트랜스포머 기반 한국어 텍스트 요약 모델의 순차적 문맥 학습 영향성 분석
http://doi.org/10.5626/JOK.2021.48.10.1097
텍스트 요약 기술은 전체 텍스트 내용이 가지는 의미를 유지하면서도 텍스트의 길이를 줄여, 정보 과적재 문제를 해결하고 독자의 빠른 정보 소비를 돕는다. 이를 위해 트랜스포머 기반의 영어 텍스트 요약 모델에 대한 연구가 활발히 진행되고 있다. 최근에는 RNN 기반의 인코더를 추가하여 고정된 어순을 갖는 영어의 특성을 반영한 추상 텍스트 요약 모델이 제안되기도 했다. 본 논문은 영어보다 자유로운 어순을 갖는 한국어에 대해 RNN 기반의 인코더를 이용하여, 텍스트 추상 요약 모델에 순차적 문맥 학습이 어떠한 영향을 미치는지 연구하였다. 직접 수집한 한국어 기사에 대해 트랜스포머 기반 모델과 기존 트랜스포머에 RNN 기반 인코더를 추가한 모델을 학습하여 제목 생성 및 기사 내용 요약 성능을 분석하였다. 실험 결과, RNN 기반의 인코더를 추가한 모델이 더 높은 성능을 보였으며, 한국어 텍스트의 추상 요약 수행 시, 순차적인 문맥 학습이 필요함을 확인하였다.
SMERT: 감성 분석 및 감정 탐지를 위한 단일 입출력 멀티 모달 BERT
http://doi.org/10.5626/JOK.2021.48.10.1122
감성 분석은 텍스트로부터 주관적인 의견 및 성향을 분석하고, 감정 탐지는 ‘행복’, ‘슬픔’과 같이 텍스트에서 나타나는 감정을 검출하는 연구다. 멀티 모달 데이터는 텍스트뿐만 아니라 이미지, 음성 데이터가 함께 나타나는 것을 의미한다. 관련 선행 연구에서 순환 신경망 모형 혹은 교차 트랜스포머를 사용한다. 하지만 순환 신경망 모형은 장기 의존성 문제를 가지며, 교차 트랜스포머는 모달리티별 특성을 반영하지 못하는 문제점이 있다. 이를 해결하기 위해 본 연구에서는 멀티 모달 데이터가 하나의 네트워크로 학습되는 단일 입출력 트랜스포머 기반 모형 SMERT를 제안한다. SMERT는 모달리티 결합 표현형을 얻어 이를 감성 분석 및 감정 탐지에 활용한다. 또한, BERT의 훈련 태스크를 멀티 모달 데이터에 활용하기 위해 개량하여 사용한다. 제안하는 모델의 검증을 위해 CMU-MOSEI 데이터셋과 여러 평가 지표를 이용하고, 모달리티 조합별 비교실험과 예시를 통해 모델의 우수성을 검증하였다.
트랜스포머 모델을 이용한 한국어에서의 숫자 정규화
http://doi.org/10.5626/JOK.2021.48.5.510
한국어의 정규화 작업은 음성 합성 시스템을 위한 텍스트 전처리 과정에서 중요한 요소이다. 특히 한국어에서 숫자는 문맥 요소에 의해 다양하게 읽히므로 숫자를 한국어로 바꾸는 정규화 기술의 성능이 시스템의 성능과 직결된다. 그러나 이와 같은 한국어에서의 숫자 정규화는 논의된 바가 많지 않으며 기존 모델은 규칙에 기반하고 있어 다양한 맥락에서의 숫자를 한국어로 정규화 하는데 한계를 보인다. 이에 본 논문은 딥러닝을 기반으로 한 한국어에서의 숫자 정규화 모델을 제안한다. 제안 모델은 문장의 음절을 입력으로 하는 시퀀스 투 시퀀스 트랜스포머 모델을 사용하였으며 긴 숫자에 대한 정보로써 숫자 자릿수 인코딩을 결합하였다. 성능 비교를 위해 일반적인 숫자, 새로운 숫자, 비표준적 숫자, 긴 숫자 테스트셋을 사용하여 실험하였다. 그 결과 제안 모델이 규칙 기반 모델과 비교해 일반 테스트셋에서 2%, 비표준적 테스트셋에서 19% 이상의 성능 향상이 있었다. 또한 숫자 자릿수 인코딩을 결합한 제안 모델이 다른 딥러닝 모델에 비해 긴 숫자 정규화에 13% 높은 성능을 보였다.
BERT를 이용한 한국어 의미역 결정
http://doi.org/10.5626/JOK.2020.47.11.1021
의미역 결정은 문장 내에서 “누가, 무엇을, 어떻게, 왜” 등의 관계를 찾아내는 자연어처리의 한 응용이다. 최근 의미역 결정 연구는 주로 기계학습을 이용하고 자질 정보를 배제한 종단 대 종단(end-to-end) 방식의 연구가 이루어지고 있다. 최근 BERT(Bidirectional Encoder Representations from Transformers)라는 언어 모델이 자연어처리 분야에 등장하여 기존 자연어처리 분야의 최고 성능 모델들 보다 더 좋은 성능을 보이고 있다. 종단 대 종단 방식을 이용한 의미역 결정 연구의 성능은 주로 기계학습 모델의 구조나 사전에 학습된 언어 모델의 영향을 받는다. 따라서 본 논문에서는 한국어 의미역 결정성능 향상을 위해 BERT를 한국어 의미역 결정에 적용한다. 실험 결과 BERT를 이용한 한국어 의미역 결정 모델의 성능이 85.77%로 기존 한국어 의미역 결정 모델들 보다 좋은 성능을 보였다.
LEXAI : 설명 가능한 인공지능을 이용한 법률 문서 유사도 분석 서비스
http://doi.org/10.5626/JOK.2020.47.11.1061
최근 딥러닝 학습의 성능이 향상됨에 따라, 전문적인 분야에서 이 방법을 사용하려는 연구가 다양해지고 있다. 유사한 논리적 의미를 가진 법률 문서의 검색은 법률 분야에서 매우 중요한 부분이지만, 관련 분야의 전문적인 지식을 요구하기 때문에 전문가 시스템을 사용한 서비스에서 벗어나기 어려운 실정이다. 또한, 전문가 시스템을 구성하는 데는 전문 인력의 비용이 과다하게 발생하므로 자동화된 유사 법률 문서 검색환경을 구축하기에 어려운 점이 있다. 기존의 유사 문서 검색 서비스가 전문가 시스템과 통계적 시스템에 기반하는 환경을 제공하는데 비하여, 제안하는 방법은 분류 작업을 위한 뉴럴 네트워크를 학습하고 이를 사용하는 방법을 채택하였다. 우리는 설명 가능한 뉴럴 네트워크를 이용하여 의미적 유사도가 높은 법률 문서간의 검색을 제공하는 데이터베이스 시스템 구조를 제안하였다. 이러한 제안 기법의 특징은 유사 문서들 간의 의미적 관련성에 대한 시각적 유사도 평가 방법을 마련하고 이를 검증하는 성과를 보여준다.
사전학습 언어모델 기반 트랜스포머를 활용한 의미유사도기반 자연어이해 의도파악 방법
http://doi.org/10.5626/JOK.2020.47.8.748
자연어이해는 로봇, 메신저, 자연어 인터페이스 등에 활용되는 근간 기술 중 하나이다. 본 연구에서는 자연어이해 문제 중 문장의 의도를 파악하는 의도파악기술에 있어, 전통적인 분류기술을 활용하는 것이 아닌, 문장의 의미를 벡터 형태로 가공할 수 있는 문장 및 의미틀 읽기장치를 학습시키고, 훈련문장과 질의문장의 벡터 공간상의 의미거리를 측정하여, 가장 가까운 훈련문장의 의도를 질의문장의 의도로 부착하는 방법을 제안한다. 이를 위해, 사전학습 언어모델 기반 트랜스포머를 활용하여 기호 형태의 문장 및 의미틀을 벡터 형태로 변환하는 방법을 소개한다. 한국어 기반 날씨 및 내비게이션 영역의 말뭉치와 영어 기반 항공교통 예약 영역, 음성 언어 이해 시스템 영역의 자연어 말뭉치등을 활용한 다양한 실험을 통하여 제안한 방법이 성공적으로 의미벡터를 배움을 보이고, 기존 의도파악 기술 대비 높은 성능을 가짐을 보인다.
트랜스포머와 BERT로 구현한 한국어 형태소 분석기의 성능 분석
http://doi.org/10.5626/JOK.2020.47.8.730
본 논문은 Transformer로 구현한 한국어 형태소 분석기를 다룬다. Transformer는 최근에 가장 널리 사용되는 sequence-to-sequence 모델 중 하나이다. Transformer는 인코더와 디코더로 구성되어 있는데 인코더는 원문을 고정된 크기의 벡터로 압축시키고 디코더는 이 벡터를 이용하여 형태소 분석 결과를 생성해 낸다. 본 논문에서는 또한 Transformer의 인코더를 BERT로 대체해 본다. BERT는 대용량의 학습데이터를 이용하여 미리 학습시켜 놓은 언어 표현 모델이다. 디코더에는 주의 메커니즘과 복사 메커니즘을 도입하였다. 인코더와 디코더에서의 처리 단위는 각각 어절 단위 WordPiece와 형태소 단위의 WordPiece를 사용하였다. 실험을 통해, BERT의 파라미터를 문제에 맞게 재조정했을 때의 성능이 Transformer를 임의의 값으로 초기화하여 사용했을 때에 비해 F1에서 2.9%의 성능 향상을 보임을 알 수 있었다. 또한 학습단계에서 충분히 학습되지 못한 WordPiece의 임베딩이 형태소 분석에 어떤 영향을 미치는지도 살펴보았다.
Analysis of the Semantic Answer Types to Understand the Limitations of MRQA Models
Doyeon Lim, Haritz Puerto San Roman, Sung-Hyon Myaeng
http://doi.org/10.5626/JOK.2020.47.3.298
최근 MRQA 모델들의 성능이 인간을 넘어섰다. 그리하여 MRQA 모델의 새로운 가능성들을 찾기 위해 새로운 데이터 셋들이 소개되고 있다. 하지만, 이전 MRQA모델들이 어떤 유형에서 문제를 잘풀고 어떤 한계점이 있는지 자세한 분석을 통해 새로운 데이터셋을 제시하는 경우는 거의 없었다. 이 연구에서는 MRQA가 극복했다고 여겨지는 SQuAD 데이터 셋을 분석하여 MRQA가 언어를 이해한 것이 아니라 특정한 패턴을 찾아냈다는 것을 밝혀낸다. 이 과정에서 기존 QA데이터 셋에서 주로 등장하는 wh-word와 Lexical Answer Type (LAT) 정보에 많은 모델들이 특히 집중하고 있다는 것을 밝히고, 그 때문에 질의와 문서의 정보를 충분히 이해하지 못하고 있다는 것을 정성, 정량적인 수치로 보였다. 이러한 분석을 바탕으로 앞으로 MRQA의 데이터셋의 방향과 모델들이 극복해야할 한계점을 제시하였다.