검색 : [ author: Hyun-ki Kim ] (6)

뉴럴-심볼릭 순위화 모델 기반 2단계 단락 재순위화 모델

배용진, 김현, 임준호, 김현기, 이공주

http://doi.org/10.5626/JOK.2021.48.5.501

자연어 질의응답 시스템과 관련한 이전의 연구들은 주어진 질문과 단락으로부터 정확한 정답을 추출하는 문제에 초점을 맞추고 있다. 그러나, 기계독해에서 오픈 도메인 질의응답으로 문제를 확장하였을 때, 정답이 포함된 단락을 잘 찾는 것이 기계독해 못지않은 중요한 요소이다. DrQA에서는 초기 검색 단계를 포함하여 질의응답을 하였을 때 Exact Match@Top1 성능이 69.5%에서 27.1%로 하락했다고 평가하였다. 본 논문에서는 질의응답 시스템 성능 향상을 위해 2단계 단락 재순위화 모델을 제안한다. 2단계 단락 재순위화 모델은 심볼릭 순위화 모델과 뉴럴 순위화 모델의 결과를 통합하여 다시 재순위화하는 모델이다. 심볼릭 순위화 모델은 CatBoost 알고리즘과 질문과 단락 간의 자질을 기반으로 단락을 순위화 하고, 뉴럴 순위화 모델은 한국어 딥러닝 언어모델(KorBERT)을 사후학습하여 순위화하였다. 2단계 모델은 뉴럴 리그레션 모델에 기반하여 순위화하였다. 본 논문에서는 특징이 다른 순위화 모델을 결합하여 성능을 극대화하였고, 최종적으로 제안한 모델은 1,000건의 질문을 평가하였을 때 MRR 기준 85.8%과 BinaryRecall@Top1기준 82.2%의 성능을 보였고, 각 성능은 베이스라인 모델보다 17.3%(MRR), 22.3%(BR@Top1)이 향상되었다.

기계독해 말뭉치의 교차 평가, 블라인드 평가 및 오픈도메인 질의응답 환경 평가를 통한 한국어 기계독해의 일반화 성능 평가

임준호, 김현기

http://doi.org/10.5626/JOK.2021.48.3.275

기계독해는 자연어 질문과 단락이 주어졌을 때 단락 내 정답을 찾는 태스크로, 최근 사전학습 언어모델을 이용한 방법이 우수한 성능을 보이고 있다. 본 논문에서는 현재 기계독해 기술이 학습말뭉치와 유사한 평가말뭉치가 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 말뭉치 간 교차 평가 및 블라인드 평가를 수행하였고, 교차 평가결과 정답 길이, 질문 단락 사이 오버랩 비율과 같은 통계와 일반화 성능 사이 관련이 있음을 확인하였다. 블라인드 평가결과, 정답 길이가 길고 질문-단락 사이 어휘 오버랩이 낮은 평가말뭉치에서는 80% 이하의 성능을 보였다. 마지막으로, 기계독해 모델을 오픈도메인 질의응답 환경에 적용할 경우의 일반화 성능을 평가하여, 검색 단락을 이용한 기계독해 시 성능이 하락함을 확인하였다. 기계독해는 태스크 특성 상 질문과 정답 사이 관계에 따라 난이도 및 일반화 성능 차이가 발생하여, 다양한 유형의 평가말뭉치에서의 평가가 필요함을 확인하였다.

사전학습 언어모델의 토큰 단위 문맥 표현을 이용한 한국어 의존 구문분석

임준호, 김현기

http://doi.org/10.5626/JOK.2021.48.1.27

의존 구문분석은 문장 내 단어 사이의 의존관계 및 레이블을 인식하여 문장의 구조적 중의성을 해소하는 문제이다. 사전학습 언어모델 위에 추가적인 순환신경망(RNN)을 적용한 선행 연구들과 달리, 본 논문에서는 사전학습 언어모델의 자가집중 메커니즘을 최대한 활용하기 위하여 사후학습만을 이용한 의존 구문분석 방법을 제안하고, 성능 개선을 위하여 어절 사이의 상대거리 파라미터와 구분자 토큰 활용기법을 제안한다. TTA 표준 가이드라인 세종 구문분석 말뭉치를 평가결과 KorBERT_base 모델은 95.73% UAS, 93.39% LAS를, KorBERT_large 모델은 96.31% UAS, 94.17% LAS를 보였다. 이는 사전학습 언어모델을 사용하지 않은 기존 연구 대비 약 3% 이상의 성능 개선을 보인 결과이다. 다음으로 선행 연구의 어절-형태소 혼합 변환 말뭉치 평가 결과, KorBERT_base 모델은 94.19% UAS, KorBERT_large 모델은 94.76% UAS 성능을 보였다.

Self-Attention 지배소 인식 모델을 이용한 어절 단위 한국어 의존 구문분석

임준호, 김현기

http://doi.org/10.5626/JOK.2019.46.1.22

의존 구문분석은 문장의 구조적 중의성을 해소하는 문제로, 최근 다양한 딥러닝 기술이 적용되어 높은 성능을 보이고 있다. 본 논문은 딥러닝을 이용한 의존구문분석을 크게 3가지 단계로 구분하여 살펴보았다. 첫 번째는 의존 구문분석의 단위가 되는 어절에 대한 벡터 표현 단계, 두 번째는 각 어절의 주위 어절 정보를 반영하는 문맥 반영 단계, 마지막은 문맥 반영된 어절 정보에 기반한 지배소 및 의존관계 인식 단계이다. 본 논문에서는 어절 표현 방법으로 CNN 모델에서 많이 사용하는 max-pooling 방법을 제안하고, 문맥반영을 위하여 LSTM, GRU보다 적은 계산량을 가지는 Minimal-RNN Unit을 적용하였다. 마지막으로 지배소 인식을 위하여 각 어절 사이의 상대 거리 임베딩을 반영한 Self-Attention 지배소 인식 모델을 제안하고, 의존관계 레이블 인식을 위하여 지배소 인식 모델과 동시에 학습을 수행하는 multi-task learning을 적용하였다. 평가를 위하여 세종계획 구구조 구문분석 말뭉치를 TTA 표준 의존 구조 가이드라인에 따라 변환하였고, 실험결과 제안 모델이 UAS 93.38%, LAS 90.42%의 구문분석 정확도를 보였다.

의미 프레임과 유의어 클러스터를 이용한 한국어 의미역 인식

임수종, 임준호, 이충희, 김현기

http://doi.org/

기계학습 기반의 의미역 인식에서 어휘, 구문 정보가 자질로 주로 쓰이지만, 의미 정보를 분석하는 의미역 인식은 의미 정보 또한 매우 유용한 정보이다. 그러나, 기존 연구에서는 의미 정보를 활용할 수 있는 방법이 제한되어 있기 때문에, 소수의 연구만 진행되었다. 본 논문에서는 의미 정보를 활용하는 방안으로 동형이의어 수준의 의미 애매성 해소 기술, 고유 명사에 대한 개체명 인식 기술, 의미 정보에 기반한 필터링, 유의어 사전을 이용한 클러스터 및 기존 의미 프레임 정보 확장, 구문-의미 정보 연동 규칙, 필수 의미역 오류 보정 등을 제안한다. 제안하는 방법은 기존 연구 대비 뉴스 도메인인 Korean Propbank 는 3.77, 위키피디아 문서 기반의 Exobrain GS 3.0 평가셋에서는 8.05의 성능 향상을 보였다.

기분석사전과 기계학습 방법을 결합한 음절 단위 한국어 품사 태깅

이충희, 임준호, 임수종, 김현기

http://doi.org/

본 논문은 음절 단위 한국어 품사 태깅 방법의 성능 개선을 위해 기분석사전과 기계학습 방법을 결합하는 방법을 제안한다. 음절 단위 품사 태깅 방법은 형태소분석을 수행하지 않고 품사 태깅만을 수행하는 방법이며, 순차적 레이블링(Sequence Labeling) 문제로 형태소 태깅 문제를 접근한다. 본 논문에서는 순차적 레이블링 기반 음절 단위 품사 태깅 방법의 전처리 단계로 품사 태깅말뭉치와 국어사전으로부터 구축된 복합명사 기분석사전과 약 1천만 어절의 세종 품사 태깅말뭉치로부터 자동 추출된 어절 사전을 적용함으로써 품사 태깅 성능을 개선시킨다. 성능 평가를 위해서 약 74만 어절의 세종 품사 태깅말 뭉치로부터 67만 어절을 학습 데이터로 사용하고 나머지 7만 4천 어절을 평가셋으로 사용하였다. 기계학습 방법만을 사용한 경우에 96.4%의 어절 정확도를 보였으며, 기분석사전을 결합한 경우에는 99.03%의 어절 정확도를 보여서 2.6%의 성능 개선을 달성하였다. 퀴즈 분야의 평가셋으로 실험한 경우에도 기계학습 엔진은 96.14% 성능을 보인 반면, 하이브리드 엔진은 97.24% 성능을 보여서 제안 방법이 다른 분야에도 효과적임을 확인하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr