디지털 라이브러리[ 검색결과 ]
사전 학습된 신경망 언어모델 기반 다중 임베딩 조합을 통한 소재 및 화학분야 개체명 인식 성능 비교 연구
http://doi.org/10.5626/JOK.2021.48.6.696
최근 소재 및 화학분야의 급속한 발전으로 해당 분야 관련 학술 문헌이 기하급수적으로 늘어나고 있다. 이에 기존의 축적된 방대한 데이터에서 유의미한 정보를 추출하기 위한 연구들이 진행되고 있으며, 그 방법론 중 하나로 개체명 인식이 활용되고 있다. 소재 및 화학분야 개체명 인식은 학술 문헌에서 소재, 물성 정보, 실험 조건 등과 같은 정형화된 개체를 추출하고, 그 종류를 분류하는 작업이다. 본 논문에서는 신경망 언어 모델의 사전 훈련 없이 기존의 공개된 언어 모델을 임베딩 조합과 Bi-direction LSTM-CRF 모델을 사용하여 소재 및 화학분야 개체명 인식을 연구하였다. 그 결과 가장 성능이 좋은 조합을 도출하였고 그 이유를 분석하였다. 추가적으로 사전 학습 언어 모델 자체를 개체명 인식 모델로 사용하여 미세조정을 통해 성능을 비교하였다. 이를 통해 기존의 공개된 사전 학습 언어 모델들로 구성한 다중 임베딩 조합이 소재 및 화학분야 개체명 인식에서 유의미한 결과를 도출할 수 있음을 증명하였다.
한국어 어휘 의미망을 활용한 CRF 모델 기반 개체명 인식
http://doi.org/10.5626/JOK.2021.48.5.556
개체명 인식은 주어진 문장 내의 고유한 의미가 있는 단어들을 미리 정의된 개체의 범주로 분류하는 작업이다. 최근 딥러닝 네트워크 혹은 언어 모델을 이용한 개체명 인식 연구들이 높은 성능을 보였지만 이러한 모델은 고성능의 컴퓨팅 파워가 요구되며 학습 모델의 속도가 느려 아직은 실용성이 낮다는 문제가 있다. 본 논문에서는 실용성을 목적으로 처리 속도와 정확률을 모두 고려하여 기계학습 방식의 CRF를 기반으로 하여 의미 자질과 구문적 자질을 추가한 개체명 인식 시스템을 제안한다. 한국어 어휘 의미망(UWordMap)을 활용하여 사람의 지식을 기반으로 하여 의미 자질인 상위어, 최상위어 정보와 구문적 자질인 의존관계와 격조사 정보를 학습 자질로 추가하고 평가하였다. 실험 결과, F1 score 기준 90.54% 포인트의 성능과 초당 약 1,461 문장을 처리하였다.
텍스트 채우기와 적대 신경망을 이용한 개체명 인식 데이터 확장
http://doi.org/10.5626/JOK.2021.48.4.462
자연 언어 처리에 딥러닝 모델이 적용되면서 딥러닝 모델을 구축하기 위해 많은 양의 데이터가 필요해졌다. 그러나 개체명 인식과 같이 레이블링된 학습 데이터 구축은 어려워 데이터 부족 문제가 발생한다. 이러한 데이터 부족 문제를 해결하기 위해 데이터 확장이 필요하다. 따라서 본 연구에서는 텍스트 채우기와 생성적 적대 신경망을 이용해 레이블링된 개체명 인식 데이터 확장모델을 제안한다. 제안한 모델은 개체명 정보를 변경하지 않고 부분 문장을 생성해 새로운 데이터를 생성할 수 있다. 제안한 모델은 다른 비교 모델들에 비해 자연스럽고 내용적 일관성이 있는 부분 문장을 생성할 수 있다. 또한 제안한 모델로 확장한 개체명 인식 데이터로 개체명 인식 모델을 학습할 경우 성능을 향상될 수 있음을 보였다.
자원부족 환경에 적합한 BIT 개체명 표기법
윤호, 김창현, 천민아, 박호민, 남궁영, 최민석, 김재균, 김재훈
http://doi.org/10.5626/JOK.2021.48.3.293
개체명 인식이란 주어진 문서에서 개체명의 범위를 찾고 개체명을 분류하는 것이다. 많은 개체명은 하나 이상의 단어로 구성되므로 대부분의 개체명 학습말뭉치는 BIO 표기법으로 표현된다. BIO 표기법은 개체명이 시작되는 단어의 표지에 “B-”를 붙이고, 개체명에 포함된 그 외의 단어의 표지에는 “I-”를 붙이며, 개체명과 개체명 사이의 모든 단어의 표지를 “O”로 간주하는 방법이다. 이 방법은 약 90% 이상의 단어가 “O” 표지를 가지므로 “O” 표지에 대한 혼잡도가 높아지는 문제와 불균형학습 문제가 야기된다. 본 논문에서는 BIO 표기법 대신에 BIT 표기법을 제안한다. BIT 표기법이란 BIO 표기법에서 “O” 표지를 “T” 표지로 변환하는 방법이며 본 논문에서 “T” 표지는 품사 표지를 나타낸다. 실험을 통해서 단어 표상의 의미 투영도가 높지 않을 경우, 즉 상대적으로 적은 양의 학습자료로 단어 표상을 학습했을 경우에는 BIT 표기법이 BIO 표기법보다 좋은 성능을 보였다.
공유계층을 이용한 형태소 분석과 개체명 인식 통합 모델
http://doi.org/10.5626/JOK.2021.48.2.167
한국어 형태소 분석은 형태소 분석, 품사 태깅 과정으로 나뉜다. 형태소 분석 과정에서 형태소와 품사 후보 쌍을 추출하고, 품사 태깅 과정에서는 추출된 후보 중 문맥에 알맞은 형태소와 품사를 결정한다. 개체명 인식은 문장 내에서 인명, 지명, 기관명, 날짜, 시간 등과 같이 고유한 의미를 갖는 단어를 찾아 개체명을 부착하는 기술이다. 개체명 인식과 형태소 분석 연구는 주로 독립적으로 수행되며, 많은 개체명 인식 연구에서 품사 정보를 사용한다. 이 과정에서 형태소 분석의 오류가 개체명 인식에 치명적인 오류로 전파된다. 본 논문에서는 오류 전파를 최소화하기 위해 통합 모델을 제안한다. 형태소 분석기의 오류를 줄이기 위해 순차적 레이블 부착 문제에 효과적인 레이블 주의 집중 네트워크를 활용한다. 실험 결과, 개체명 인식과 형태소 분석의 단일 모델보다 통합 모델의 성능이 더 높음을 보였다. 또한 기존의 통합모델 보다 레이블 주의 집중 네트워크를 적용한 제안 모델이 더 높은 성능을 보였다.
멀티헤드 주의집중 기법과 하이웨이 네트워크를 활용한 생물학 개체명 인식
http://doi.org/10.5626/JOK.2019.46.6.544
생물학 개체명 인식이란 생물학 문헌으로부터 질병, 유전자, 단백질과 같은 생물학 개체명을 추출하고 그 종류를 분류하는 작업으로, 생물학 데이터로부터 유의미한 정보를 추출하는데 중요한 역할을 한다. 본 연구에서는 입력 단어의 자질을 자동으로 추출할 수 있는 딥러닝 기반의 Bi-LSTM-CRF 모델을 활용한 개체명 인식 연구를 진행하였다. Multi-head 주의 기제 기법을 적용하여 입력 단어들 간의 관계를 포착하고 관련성이 높은 단어에 주목하여 예측의 성능을 높였다. 또한, 단어 단위 임베딩 벡터 외 문자 단위 임베딩 벡터를 결합하여 입력 임베딩의 표상을 확장하고, 각 표상의 정보 흐름을 학습하기 위해 Highway 네트워크에 적용하였다. 제안하는 모델의 성능을 평가하기 위해 두 개의 영어 생물학 데이터셋으로 비교 실험을 진행하였으며, 그 결과 기존 연구의 모델들보다 향상된 성능을 보였다. 이를 통해 제안하는 방법론이 생물학 개체명 인식 연구에서 효과적인 방법론임을 입증하였다.
배깅 기반의 부트스트래핑을 이용한 개체명 인식 학습 기법
http://doi.org/10.5626/JOK.2018.45.8.825
기존 개체명 인식 연구는 지도학습에 기반한 개체명인식이 주를 이루고 있다. 지도학습에 기반한 개체명인식이 좋은 성능을 보이고 있지만, 대량의 정답 말뭉치를 구축하기 위해 많은 시간과 비용을 필요로 한다는 문제점이 있다. 본 논문에서는 이러한 문제를 해결하기 위해, 대량의 말뭉치에 수동으로 정답을 부여하기 위한 노력 없이, 개체명 인식 모델이 자동 생성한 정답을 학습에 사용하는 개체명 인식 모델 학습 기법을 제안한다. 제안 방법은 소량의 개체명 정답 말뭉치만으로 대량의 개체명 정답을 자동 생성하여 학습에 사용하므로, 대량의 정답 말뭉치를 생성하기 위해 필요한 시간과 비용을 크게 절감시킨다. 추가적으로 배깅 기법을 사용하여 자동 생성한 정답들 중 오류를 제거한다. 부트스트래핑 기법과 배깅 기법을 추가하였을때, F1 점수 최고 70.67%를 기록하였다. 비교를 위한 기본 CRF 개체명 인식 모델의 F1 점수는 65.59%를 기록하였다.
Bidirectional LSTM CRF 기반의 개체명 인식을 위한 단어 표상의 확장
개체명 인식이란 문서 내에서 인명, 기관명, 지명, 시간, 날짜 등 고유한 의미를 가지는 개체명을 추출하여 그 종류를 결정하는 것을 말한다. 최근 개체명 인식 연구에서 가장 우수한 성능을 보여주고 있는 모델은 Bidirectional LSTM CRFs 모델이다. 이러한 LSTM 기반의 딥 러닝 모델은 입력이 되는 단어 표상에 의존적이다. 따라서 입력이 되는 단어를 잘 표현하기 위하여 단어 표상을 확장하는 방법에 대한 연구가 많이 진행되어지고 있다. 본 논문에서는 한국어 개체명 인식을 위하여 Bidirectional LSTM CRFs모델을 사용하고, 그 입력으로 사용되는 단어 표상을 확장하기 위해 사전 학습된 단어 임베딩 벡터, 품사 임베딩 벡터, 음절 기반에서 확장된 단어 임베딩 벡터, 그리고 개체명 사전 자질 벡터를 사용한다. 최종 단어 표상 확장 결과 사전 학습된 단어 임베딩 벡터만 사용한 것 보다 8.05%p의 성능 향상을 보였다.
Word Embedding 자질을 이용한 한국어 개체명 인식 및 분류
한국어 개체명 인식에 다양한 연구가 있었지만, 영어 개체명 인식에 비해 자질이 부족한 문제를 가지고 있다. 본 논문에서는 한국어 개체명 인식의 자질 부족 문제를 해결하기 위해 word embedding 자질을 개체명 인식에 사용하는 방법을 제안한다. CBOW(Continuous Bag-of-Words) 모델을 이용하여 word vector를 생성하고, word vector로부터 K-means 알고리즘을 이용하여 군집 정보를 생성한다. word vector와 군집 정보를 word embedding 자질로써 CRFs(Conditional Random Fields)에 사용한다. 실험 결과 TV 도메인과 Sports 도메인, IT 도메인에서 기본 시스템보다 각각 1.17%, 0.61%, 1.19% 성능이 향상되었다. 또한 제안 방법이 다른 개체명 인식 및 분류 시스템보다 성능이 향상되는 것을 보여 그 효용성을 입증했다.
원거리 감독과 능동 배깅을 이용한 개체명 인식
개체명 인식은 문장에서 개체명을 추출하고 추출된 개체명의 범주를 결정하는 작업이다. 기존의 개체명 인식 연구는 주로 지도 학습 기법이 사용되어 왔다. 지도 학습을 위해서는 개체명 범주가 수동으로 부착된 대용량의 학습 말뭉치가 필요하며, 대용량의 학습 말뭉치를 수동으로 구축하는 것은 시간과 인력이 많이 들어가는 일이다. 본 논문에서는 학습 말뭉치 구축비용을 최소화하면서 개체명 인식 성능을 빠르게 향상시키기 위한 준지도 학습 방법을 제안한다. 제안 방법은 초기 학습 말뭉치를 구축하기 위해 원거리 감독법을 사용한다. 그리고 배깅과 능동 학습을 결합한 앙상블 기법의 하나인 능동 배깅을 사용하여 초기 학습 말뭉치에 포함된 노이즈 문장을 효과적으로 제거한다. 실험 결과, 15회의 능동 배깅을 통해 개체명 인식 F1-점수를 67.36%에서 76.42%로 향상시켰다.