검색 : [ author: Sung-Pil Choi ] (7)

학습 가능한 재순위화 및 응답 필터링 모델을 적용한 오픈 도메인 질의응답 시스템의 성능 향상

신현호, 이명훈, 전홍우, 이재민, 최성필

http://doi.org/10.5626/JOK.2023.50.3.273

딥러닝 기술이 자연어처리에 적용되면서, 사용자 질문에 대상 단락을 미리 준비하지 않은 상황에서도 정답을 찾을 수 있는 오픈 도메인 질의응답에 대한 연구가 활발히 진행되고 있다. 그러나 기존 연구는 키워드 기반 정보 검색을 사용하여 의미론적 매칭에 한계가 존재한다. 이를 보완하기 위해 딥러닝 기반 정보 검색 연구가 진행되고 있으나 실증적으로 실 시스템에 적용한 국내 연구는 아직 많지는 않은 상황이다. 이에 본 논문에서는 한국어 오픈 도메인 질의응답 시스템의 성능을 높이기 위해 2단계 성능 고도화 방법을 제안하였다. 제안된 방법은 검색엔진과 기계독해 모델이 결합된 형태의 베이스라인 시스템에 기계학습 기반의 재순위화 모델과 응답 필터링 모델을 순차적으로 적용하는 방법이다. 베이스라인 시스템의 경우 초기 성능은 F1 스코어 74.43, EM 스코어 60.79이며, 제안된 방법을 활용하였을 때 F1 스코어 82.5, EM 스코어 68.82로 성능이 향상되는 것을 확인하였다.

사전 학습된 Encoder-Decoder 모델 기반 질의응답 쌍 생성을 통한 기계 독해 학습 데이터 증강 기법

신현호, 최성필

http://doi.org/10.5626/JOK.2022.49.2.166

기계 독해 연구는 문서에서 질문에 대한 정답을 찾는 것으로 대규모 데이터가 필요하지만 개인 연구자나 소규모 연구 기관이 구축하는 것은 한계가 있다. 이에 본 논문은 사전 학습 언어모델을 활용한 기계 독해 데이터 증강 기법을 제안한다. 기계 독해 데이터 증강 기법은 질의응답 쌍 생성 모델과 데이터 검증 모델로 구성된다. 질의응답 쌍 생성 모델은 정답 추출 모델과 질문 생성 모델로 구성되며, 두 모델 모두 BART 모델을 미세 조정하여 구축하였다. 데이터 검증 모델은 증강 데이터의 신뢰성을 높이기 위해 별도로 추가하였으며, 증강 데이터의 활용 여부를 결정한다. 검증 모델은 ELECTRA 모델을 기계 독해 모델로 미세 조정하여 사용하였다. 증강 기법을 통한 모델 성능 개선을 확인하기 위해 KorQuAD v1.0 데이터에 증강 기법을 적용하였다. 실험 결과 기존 모델 대비 EM Score의 경우 최대 7.2 상승하였고 F1 Score는 최대 5.7 상승하는 유의미한 결과를 도출하였다.

사전 학습된 신경망 언어모델 기반 다중 임베딩 조합을 통한 소재 및 화학분야 개체명 인식 성능 비교 연구

이명훈, 신현호, 전홍우, 이재민, 하태현, 최성필

http://doi.org/10.5626/JOK.2021.48.6.696

최근 소재 및 화학분야의 급속한 발전으로 해당 분야 관련 학술 문헌이 기하급수적으로 늘어나고 있다. 이에 기존의 축적된 방대한 데이터에서 유의미한 정보를 추출하기 위한 연구들이 진행되고 있으며, 그 방법론 중 하나로 개체명 인식이 활용되고 있다. 소재 및 화학분야 개체명 인식은 학술 문헌에서 소재, 물성 정보, 실험 조건 등과 같은 정형화된 개체를 추출하고, 그 종류를 분류하는 작업이다. 본 논문에서는 신경망 언어 모델의 사전 훈련 없이 기존의 공개된 언어 모델을 임베딩 조합과 Bi-direction LSTM-CRF 모델을 사용하여 소재 및 화학분야 개체명 인식을 연구하였다. 그 결과 가장 성능이 좋은 조합을 도출하였고 그 이유를 분석하였다. 추가적으로 사전 학습 언어 모델 자체를 개체명 인식 모델로 사용하여 미세조정을 통해 성능을 비교하였다. 이를 통해 기존의 공개된 사전 학습 언어 모델들로 구성한 다중 임베딩 조합이 소재 및 화학분야 개체명 인식에서 유의미한 결과를 도출할 수 있음을 증명하였다.

주의집중 메커니즘을 통한 인코더-디코더 기반의 지식 베이스 트리플 활용 문장 생성

최가람, 최성필

http://doi.org/10.5626/JOK.2019.46.9.934

본 논문은 정형화된 구조를 지니는 지식 베이스 트리플(Knowledge Base Triples) 데이터를 활용하여 자연어 형태의 문장 생성 연구를 진행하였다. 트리플을 구체적으로 표현하는 문장 생성을 위해 LSTM(Long Short-term Memory Network) 인코더(Encoder)-디코더(Decoder) 구조를 활용, 주의집중 메커니즘(Attention Mechanism)을 적용하였다. 테스트 데이터에 대해 BLEU, ROUGE 스코어 각각 42.264 (BLEU-1), 32.441(BLEU-2), 26.820(BLEU-3), 24.446(BLEU-4), 47.341(ROUGE-L) 성능을 보였으며, 동일 데이터의 비교 모델에 대해 0.8%(BLEU-1) 상승된 성능을 보였다. 또한 상위 10개의 테스트 데이터 BLEU 스코어 평균 측정 결과 99.393(BLEU-1)로 높은 스코어를 기록하여, 이를 통해 문장 생성 결과가 유의미함을 확인하였다.

학술논문 PDF에 대한 딥러닝 기반의 메타데이터 추출 방법 연구

김선우, 지선영, 정희석, 윤화묵, 최성필

http://doi.org/10.5626/JOK.2019.46.7.644

최근 학술문헌의 수가 빠르게 증가함에 따라, 최신 연구 동향 및 정보를 얻기 위한 학술데이터 베이스 서비스의 필요성이 대두되었다. 학술데이터베이스 구축을 위한 메타데이터 추출 자동화 서비스가 연구되었으나, 대부분의 학술문헌 원문은 PDF로 구성되어 자동적인 정보 추출이 쉽지 않은 문제가 있다. 이에 본 연구는 학술문헌 PDF에 대한 메타데이터 자동 추출 방법을 제안한다. 먼저 학술문헌 PDF를 XML 형식으로 변환한 이후, XML 마크업 토큰 내의 좌표, 크기, 넓이와 텍스트 자질을 추출하여 벡터 형태로 구성한다. 추출된 자질 정보를 연속적 레이블링에 특화된 딥러닝 모델인 Bidirectional GRU-CRF를 활용하여 분석하고 메타데이터를 추출한다. 본 연구에서는 국내 학술지 중 10종을 선정하여 메타데이터 추출을 위한 학습집합을 구축하고, 제안한 방법론을 활용하여 실험하였다. 9종의 메타데이터에 대한 추출실험 결과, 88.27%의 정확도와 84.39%의 F1 성능을 얻었다.

대용량 텍스트 자원을 활용한 한국어 형태소 임베딩의 모델별 성능 비교 분석

이다빈, 최성필

http://doi.org/10.5626/JOK.2019.46.5.413

단어 임베딩은 컴퓨터가 자연어를 인식할 수 있도록 하는 변환 기법으로 기계번역, 개체명 인식 등 기계학습을 바탕으로 하는 자연어 처리 분야에서 다양하게 사용되고 있다. 단어 임베딩을 생성하는 다양한 단어 임베딩 모델들이 존재하지만 이러한 모델들을 동일한 조건에서 성능을 비교 분석한 연구가 미비하다. 본 논문에서는 한국어 형태소 단위 띄어쓰기를 기반으로 하여 활발하게 사용되고 있는 모델인 Word2Vec의 Skip-Gram과 CBOW, GloVe, FastText의 성능을 비교 분석한다. 뉴스 대용량 말뭉치 및 세종 말뭉치를 바탕으로 실험한 결과 FastText가 가장 높은 성능을 확인할 수 있었다.

Bidirectional LSTM-CRF 기반의 음절 단위 한국어 품사 태깅 및 띄어쓰기 통합 모델 연구

김선우, 최성필

http://doi.org/10.5626/JOK.2018.45.8.792

일반적으로 한국어 품사 태깅은 단어 단위로 띄어쓰기가 완료된 문장을 입력으로 받는다. 만일 띄어쓰기가 제대로 되지 않은 문장을 처리하기 위해서는 오류를 수정하기 위한 자동 띄어쓰기 처리가 선행되어야 한다. 그러나 자동 띄어쓰기 처리와 품사 태깅을 순차적으로 수행하면 각 단계에서 발생하는 오류로 인해 심각한 성능 저하 현상이 발생할 수 있다. 본 연구에서는 자동 띄어쓰기와 품사 태깅을 동시에 수행할 수 있는 통합 모델을 구축하여 이러한 문제를 해결하고자 한다. 세부적으로 Bidirectional LSTM-CRF 모델을 바탕으로 음절 기반의 띄어쓰기 및 품사 태깅을 상보적으로 동시에 수행할 수 있는 통합 모델을 제안한다. 한국어 문어 품사 부착 말뭉치를 이용한 실험 결과, 띄어쓰기가 완전한 문장에 대해서는 98.77%의 품사 태깅 성능을 보였으며, 띄어쓰기가 전혀 되어 있지 않은 문장 집합에 대해서는 97.92%의 형태소 단위 F1-measure 성능을 나타내었다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr