검색 : [ author: 박세영 ] (9)

개체명 사실 판별을 통한 기계 요약의 사실 불일치 해소

신정완, 노윤석, 송현제, 박세영

http://doi.org/10.5626/JOK.2022.49.3.231

기계 요약의 사실 불일치 문제란 요약 모델이 생성한 요약문이 원문과 사실이 일치하지 않는 문제다. 사실 불일치는 개체명에서 주로 발생하므로 기존 연구들은 요약문의 잘못된 개체명을 교정하여 사실적 불일치를 해결하였다. 하지만, 명시적인 개체명 사실 불일치 판별 없이 모든 개체명을 순차적으로 교정하거나 모두 마스킹하여 교정을 시도하였다. 모든 개체명을 교정하는 연구는 원문과 일치하는 개체명도 교정을 시도하는 문제점과 마스킹되어 사실 정보임에도 불구하고 정보를 손실시키는 문제가 발생한다. 본 논문에서는 기존 연구들의 단점을 해결하기 위해 개체명 사실 여부를 판별한 뒤 사실 불일치 개체명에 대해서만 교정을 하는 방법을 제안한다. 이를 통해 사실 불일치 개체명이 발생시키는 오류를 방지할 수 있으며, 반대로 사실 일치 개체명에 대한 정보를 최대한 활용할 수 있다. 실험을 통해 제안한 방법이 기존연구들보다 요약문의 사실 불일치를 잘 해소함을 보였다.

지식베이스로부터 자연어 문장 생성을 위한 노이즈 추가 기법

권성구, 박세영

http://doi.org/10.5626/JOK.2020.47.10.965

지식베이스로부터 자연어 문장 생성이란 지식베이스 내 트리플을 입력하여 트리플이 내포하고 있는 정보, 즉 개체와 각 개체간의 관계를 포함하고 있는 자연어 문장을 생성하는 작업이다. 해당 작업을 심층신경망 방식으로 해결하기 위해서는 많은 트리플과 자연어 문장 쌍으로 구성된 학습데이터가 필요하다. 하지만 이와 같은 공개 된 한국어 학습데이터는 존재하지 않기 때문에 학습에 어려움을 겪고 있다. 본 논문에서는 이러한 학습 데이터 부족 문제를 해결하기 위하여 한국어 위키피디아 문장 데이터를 기반으로 핵심어를 추출한 뒤, 노이즈 추가 기법을 이용해 학습 데이터를 생성하는 비지도 학습 방법을 제안한다. 제안 모델을 평가하기 위하여 사람이 직접 제작한 트리플과 자연어 문장 쌍 정답 데이터를 이용하여 평가를 수행하였다. 자동 평가와 수동 평가 결과, 노이즈 추가 기법을 이용한 자연어 문장 생성 모델이 기존 비지도 학습 데이터를 이용한 모델보다 여러 측면에서 높은 성능을 보였다.

링크 추정을 위한 지식 그래프 임베딩 기반의 앙상블 모델

최수정, 박세영

http://doi.org/10.5626/JOK.2020.47.5.473

링크 추정은 개체 사이의 관계를 추정하는 문제로, 지식 베이스를 완전하게 만들기 위한 태스크 중 하나이다. 지식 베이스는 많은 개체와 관계들을 포함하고 있지만, 누락된 지식 트리플들이 존재하기 때문에 완전하지 않다. 누락된 지식 트리플들은 지식 베이스의 활용에 한계를 야기하기 때문에 누락된 관계 정보들을 찾아 지식 베이스를 완전하게 만들기 위해 본 논문은 링크 추정을 수행하고자 한다. 기존의 링크 추정을 위한 연구들은 주로 지식 그래프 임베딩을 활용하여 누락된 관계들을 찾았다. 하지만 임베딩된 벡터들은 정확성이 부족하기 때문에 hit@10에서는 좋은 성능을 보였지만, hit@1에서는 부족한 성능을 보여 주었다. 그러므로 하나의 지식 그래프 임베딩만을 사용하여 링크를 추정하는 것은 효과적이지 않으며, 지식 그래프 임베딩들은 각자의 관점을 가지고서 임베딩하기 때문에 이들을 함께 고려하는 것이 필요하다. 따라서 본 논문에서는 기존의 링크 추정의 성능을 높이기 위하여 지식 그래프 임베딩 기반의 앙상블 모델을 제안한다. 지식 그래프 임베딩 모델들은 각자의 관점 및 특성을 가지고 있기 때문에, 이들을 결합하면 다양한 관점들을 고려할 수 있다. WN18과 FB15K 데이터 셋으로 실험한 결과, 기존의 각 모델들보다 제안한 모델이 평균적으로 13.5% 높은 성능을 보여 주었다. 또한 사용자 파라미터에 기존 모델보다 강건한 결과를 보여 제안한 모델의 우수함을 증명하였다.

표층 중립화 기반의 언어 스타일 전이

최우용, 노윤석, 박세영

http://doi.org/10.5626/JOK.2020.47.2.162

감정과 같은 자연어 문장의 스타일을 전이하기 위해 해결할 문제는 문장의 스타일을 없애는 중립화와 중립화된 문장에 스타일을 입히는 작업이다. 기존 연구에서는 적대적 학습을 통해서 잠재 공간에서 중립화를 수행했다. 하지만 이런 방식은 원래의 내용을 유지하면서 스타일을 전이하는 것에 어려움을 겪는다. 본 논문에서는 잠재 공간에서가 아닌 표층 수준에서 스타일을 띄는 단어를 지우는 것으로 중립화를 수행하고 지운 단어들을 적절히 전이된 단어로 예측해 복구하는 2단계 언어 스타일 전이 방법을 제안한다. 이를 위해서 자기주의 기반 분류기의 히트맵과 단어 예측기를 활용한다. 제안 모델을 평가하기 위해서 Yelp와 Amazon 리뷰 데이터셋, 그리고 Caption 데이터셋을 활용해 스타일 전이 실험을 수행했다. 자동 평가와 사람 평가 결과, 제안 모델이 여러 측면에서 비교 모델보다 높은 성능을 보였다.

사건 단어 주의 집중 메커니즘을 적용한 단일 문장 요약 생성

정이안, 최수정, 박세영

http://doi.org/10.5626/JOK.2020.47.2.155

요약이란 자연어 처리 연구 분야 중 하나로, 입력으로 주어진 정보 중 중요한 내용은 유지하면서 문장을 짧게 만드는 태스크이다. 그 중 단일 문장을 대상으로 한 요약 연구 중 입력 문장의 단어를 요약 문장에 사용할지 버릴지를 이진 분류하여 단어를 추출하여 요약을 수행하는 방법과 입력 문장을 기반으로 요약 문장을 생성하는 방법이 있다. 기존의 추출 요약 연구들은 단어의 구조적 정보를 사용하여 이진 분류를 수행하였고, 문장을 생성하는 방법들은 순환신경망을 이용하여 요약 문장을 생성하였다. 하지만 이러한 접근 방법은 중요한 정보를 누락하고 불필요한 정보로 요약을 생성하는 문제가 있다. 따라서 본 논문에서는 무엇을 행하였는지에 대한 정보를 제공할 수 있는 사건 단어를 사용하여, 중요한 정보에 집중하여 요약을 수행할 수 있도록 사건 단어 주의집중 메커니즘을 제안한다. 입력으로 문장 내 각 단어의 임베딩 벡터와 사건 단어 정보가 제공됐을 때, 제안한 방법은 사건 단어에 주의 집중할 수 있도록 사건 단어 정보를 사용하여 주의집중 가중치를 계산하고, 이 가중치는 기존의 모델에 결합하여 사용된다. 실험은 영어와 한국어 데이터 셋에서 수행되었으며, 기존 모델에 제안한 방법을 결합하여 평가를 수행하였다. 실험 결과, 기존 모델보다 제안한 방법을 적용한 모델이 높은 성능을 얻어, 제안한 방법이 효과적임을 입증하였다.

타임라인 기반의 하나의 사건에 대한 뉴스 스트림 요약

정이안, 최수정, 박세영

http://doi.org/10.5626/JOK.2019.46.11.1140

요약 연구에서 뉴스 기사와 같이 끊임없이 생성되어 연속성을 가지는 텍스트 스트림을 대상으로 하는 연구가 수행되고 있다. 텍스트 스트림은 시간 흐름에 따라 서사를 가지므로, 시간의 흐름을 표현할 수 있는 타임라인을 기반으로 한 요약이 수행된다. 타임라인을 사용하여 다중 문서 요약을 수행하는 이전 연구들은 기사가 수집된 날짜에 국한하여 요약을 수행하여, 수집 기간 외의 중요한 사건을 알 수 없었다. 또한 타임라인의 각 시점의 요약으로 사용될 문장을 추출할 때 문장의 간결성, 해당 시점의 정보성, 전후 시점 간의 일관성에 대한 고려가 부족했다. 따라서 본 논문은 타임라인의 시점 범위를 기사 내 언급된 시점을 대상으로 하여 타임라인의 범위를 넓혔으며, 간결하며 시점의 사건을 잘 표현하며 일관성이 높은 문장을 선택하여 요약을 생성하는 방법을 제안한다. 다중 뉴스 기사가 주어졌을 때, 본문 내 식별된 시간 표현들 중 중요도가 높은 시점을 타임라인의 시점으로 사용한다. 생성된 타임라인의 각 시점 요약으로 사용될 문장은 지나치게 긴 문장은 제외하였으며, 시점 키워드를 기반으로 한 정보성 및 앞뒤 문장 간의 개체명 유지 정도로 일관성을 고려하여 추출된다. 실험 결과, 기존에 시간을 고려하여 요약을 생성하는 모델보다 ROUGE-L에서 평균적으로 0.2848 높은 점수를 얻어 더 적절한 요약을 생성함을 확인하였다.

단어 생성 이력을 이용한 요약문 생성의 어휘 반복 문제 해결

류재현, 노윤석, 최수정, 박세영, 박성배

http://doi.org/10.5626/JOK.2019.46.6.535

시퀀스-투-시퀀스 기반의 요약 모델에서 자주 발생하는 문제 중 하나는 요약문의 생성과정에서 단어나 구, 문장이 불필요하게 반복적으로 생성되는 것이다. 이를 해결하기 위해 기존 연구들은 대부분 모델에 여러 모듈을 추가하는 방법을 제안했지만, 위 방법은 생성하지 말아야 하는 단어에 대한 학습이 부족하여 반복 생성 문제를 해결함에 있어 한계가 있다. 본 논문에서는 단어 생성 이력을 직접적으로 이용하여 반복 생성을 제어하는 Repeat Loss를 이용한 새로운 학습 방법을 제안한다. Repeat Loss를 디코더가 단어 생성 확률을 계산 했을 때 이전에 생성한 단어가 다시 생성될 확률로 정의함으로써 실제 생성한 단어가 반복 생성될 확률을 직접적으로 제어할 수 있다. 제안한 방법으로 요약 모델을 학습한 결과, 단어 반복이 줄어들어 양질의 요약을 생성하는 것을 실험적으로 확인할 수 있었다.

물체 간 연관 관계 학습을 통한 문장으로부터 장면 생성

신용민, 최수정, 박성배, 박세영

http://doi.org/10.5626/JOK.2019.46.5.431

사람과 기계가 소통할 때 위치 정보는 중요한 역할을 하지만, 때때로 문장에서 생략되어 나타난다. 사람은 생략된 정보를 배경 지식을 통해서 알 수 있지만, 기계는 그렇지 않은 경우가 많기 때문에 문장으로부터 장면을 생성한다면 올바른 장면을 생성하지 못 한다. 이러한 문제를 해결하기 위해 기존의 연구들은 주어진 문장에서 구분 분석 방식을 통해 명시적인 위치 관계를 추정하고 사전 확률들을 이용하여 생략된 정보를 복원하여 장면을 생성하였으나, 이는 형태론적 생산성과 자유로운 어순 등 구문 분석방식을 사용하기에 여러 문제가 있는 한국어 문장에 적용하기에는 많은 어려움이 있다. 따라서 본 논문에서는 한국어 문장으로부터 장면을 생성하는 방법을 제안한다. 먼저 주어진 문장에 명시적으로 나타난 물체 및 위치 관계를 추정하기 위해 RNN 기반의 신경망을 이용한다. 그 다음 물체 간 연관 관계에 대한 사전확률 값들을 학습하여 문장에서 생략된 정보를 추정한다. 추정된 물체 및 위치 정보를 사용하여 장면 트리를 구성하고 이를 통해 장면을 생성한다. 장면 생성에 대한 평가를 위해서 문장에 존재하는 연관 관계를 다루는 모델의 정확도를 측정하고 생성한 장면에 대한 평가를 수행하였다. 그 결과 구문 분석 기반 방식보다 약 25%의 성능 향상이 있어 제안한 방법이 효과적임을 증명하였다.

디노이징 메커니즘을 통한 한국어 대화 모델 정규화

김태형, 노윤석, 박성배, 박세영

http://doi.org/10.5626/JOK.2018.45.6.572

대화 시스템은 입력 발화에 대해 적절한 응답을 해주는 시스템으로 최근에는 대화 모델 학습에 딥러닝 방식의 시퀀스-투-시퀀스 모델을 많이 이용한다. 하지만 해당 방식으로 학습한 대화 모델은 적절한 정보나 호응을 보이지 않는 안전하고 무미건조한 응답을 생성하거나 어미, 어순 변화 등 다양한 형태로 변형된 입력 발화에 대해 적절한 응답을 생성하지 못하는 문제가 있다. 본 논문에서는 이를 해결하기 위해 디노이징 메커니즘을 적용한 디노이징 응답 생성 모델을 제안한다. 제안 모델은 입력 발화에 임의의 노이즈를 가해 원래의 출력을 학습함으로써 매 반복 학습마다 확률적으로 새로운 입력 데이터를 경험하게 한다. 이를 통해 모델을 정규화하여 모델이 강건한 응답을 생성할 수 있도록 한다. 제안하는 방법의 우수성을 보이기 위해 9만 건의 한국어 대화 데이터로 실험을 수행하였다. 실험 결과 제안하는 방법이 비교 모델보다 ROUGE F1 점수와 사람이 평가한 정성 평가 모두에서 더 우수한 결과를 보였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr