검색 : [ keyword: Natural Language Generation ] (3)

지식베이스로부터 자연어 문장 생성을 위한 노이즈 추가 기법

권성구, 박세영

http://doi.org/10.5626/JOK.2020.47.10.965

지식베이스로부터 자연어 문장 생성이란 지식베이스 내 트리플을 입력하여 트리플이 내포하고 있는 정보, 즉 개체와 각 개체간의 관계를 포함하고 있는 자연어 문장을 생성하는 작업이다. 해당 작업을 심층신경망 방식으로 해결하기 위해서는 많은 트리플과 자연어 문장 쌍으로 구성된 학습데이터가 필요하다. 하지만 이와 같은 공개 된 한국어 학습데이터는 존재하지 않기 때문에 학습에 어려움을 겪고 있다. 본 논문에서는 이러한 학습 데이터 부족 문제를 해결하기 위하여 한국어 위키피디아 문장 데이터를 기반으로 핵심어를 추출한 뒤, 노이즈 추가 기법을 이용해 학습 데이터를 생성하는 비지도 학습 방법을 제안한다. 제안 모델을 평가하기 위하여 사람이 직접 제작한 트리플과 자연어 문장 쌍 정답 데이터를 이용하여 평가를 수행하였다. 자동 평가와 수동 평가 결과, 노이즈 추가 기법을 이용한 자연어 문장 생성 모델이 기존 비지도 학습 데이터를 이용한 모델보다 여러 측면에서 높은 성능을 보였다.

주의집중 메커니즘을 통한 인코더-디코더 기반의 지식 베이스 트리플 활용 문장 생성

최가람, 최성필

http://doi.org/10.5626/JOK.2019.46.9.934

본 논문은 정형화된 구조를 지니는 지식 베이스 트리플(Knowledge Base Triples) 데이터를 활용하여 자연어 형태의 문장 생성 연구를 진행하였다. 트리플을 구체적으로 표현하는 문장 생성을 위해 LSTM(Long Short-term Memory Network) 인코더(Encoder)-디코더(Decoder) 구조를 활용, 주의집중 메커니즘(Attention Mechanism)을 적용하였다. 테스트 데이터에 대해 BLEU, ROUGE 스코어 각각 42.264 (BLEU-1), 32.441(BLEU-2), 26.820(BLEU-3), 24.446(BLEU-4), 47.341(ROUGE-L) 성능을 보였으며, 동일 데이터의 비교 모델에 대해 0.8%(BLEU-1) 상승된 성능을 보였다. 또한 상위 10개의 테스트 데이터 BLEU 스코어 평균 측정 결과 99.393(BLEU-1)로 높은 스코어를 기록하여, 이를 통해 문장 생성 결과가 유의미함을 확인하였다.

디노이징 메커니즘을 통한 한국어 대화 모델 정규화

김태형, 노윤석, 박성배, 박세영

http://doi.org/10.5626/JOK.2018.45.6.572

대화 시스템은 입력 발화에 대해 적절한 응답을 해주는 시스템으로 최근에는 대화 모델 학습에 딥러닝 방식의 시퀀스-투-시퀀스 모델을 많이 이용한다. 하지만 해당 방식으로 학습한 대화 모델은 적절한 정보나 호응을 보이지 않는 안전하고 무미건조한 응답을 생성하거나 어미, 어순 변화 등 다양한 형태로 변형된 입력 발화에 대해 적절한 응답을 생성하지 못하는 문제가 있다. 본 논문에서는 이를 해결하기 위해 디노이징 메커니즘을 적용한 디노이징 응답 생성 모델을 제안한다. 제안 모델은 입력 발화에 임의의 노이즈를 가해 원래의 출력을 학습함으로써 매 반복 학습마다 확률적으로 새로운 입력 데이터를 경험하게 한다. 이를 통해 모델을 정규화하여 모델이 강건한 응답을 생성할 수 있도록 한다. 제안하는 방법의 우수성을 보이기 위해 9만 건의 한국어 대화 데이터로 실험을 수행하였다. 실험 결과 제안하는 방법이 비교 모델보다 ROUGE F1 점수와 사람이 평가한 정성 평가 모두에서 더 우수한 결과를 보였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr