디지털 라이브러리[ 검색결과 ]
단어 생성 이력을 이용한 요약문 생성의 어휘 반복 문제 해결
http://doi.org/10.5626/JOK.2019.46.6.535
시퀀스-투-시퀀스 기반의 요약 모델에서 자주 발생하는 문제 중 하나는 요약문의 생성과정에서 단어나 구, 문장이 불필요하게 반복적으로 생성되는 것이다. 이를 해결하기 위해 기존 연구들은 대부분 모델에 여러 모듈을 추가하는 방법을 제안했지만, 위 방법은 생성하지 말아야 하는 단어에 대한 학습이 부족하여 반복 생성 문제를 해결함에 있어 한계가 있다. 본 논문에서는 단어 생성 이력을 직접적으로 이용하여 반복 생성을 제어하는 Repeat Loss를 이용한 새로운 학습 방법을 제안한다. Repeat Loss를 디코더가 단어 생성 확률을 계산 했을 때 이전에 생성한 단어가 다시 생성될 확률로 정의함으로써 실제 생성한 단어가 반복 생성될 확률을 직접적으로 제어할 수 있다. 제안한 방법으로 요약 모델을 학습한 결과, 단어 반복이 줄어들어 양질의 요약을 생성하는 것을 실험적으로 확인할 수 있었다.
생성 기반 질의응답 채팅 시스템에서의 정답 반복 문제 해결
http://doi.org/10.5626/JOK.2018.45.9.925
질의응답 채팅 시스템은 간단한 사실적 질문을 지식베이스 검색을 통하여 응답하는 채팅 시스템이다. 최근에 많은 sequence-to-sequence 채팅 시스템은 생성 모델의 새로운 가능성을 보였다. 그러나 생성기반 채팅 시스템은 같은 단어를 반복해서 생성하는 단어 반복 문제가 존재한다. 질의응답 채팅 시스템에서는 같은 정답이 반복되어 생성되는 문제를 가지고 있다. 이러한 문제를 해결하기 위해, 본 논문에서는 디코더에서 커버리지 방법과 ACA(Adaptive control of attention) 방법을 sequence-to-sequence 모델에 반영하는 방법을 제안한다. 또한 응답에서 중복되지 않은 단어의 개수를 반영하는 반복 손실 함수를 제안한다. 제안된 방법은 정밀도, BLEU, ROUGE-1, ROUGE-2, ROUGE-L, Distinct-1 모든 지표에서 높은 성능을 보일 뿐만 아니라, 다른 반복 출력 문제 해결을 위한 모델과의 결합에서도 좋은 성능을 보였다.
정수문자집합에 대한 문자열의 δ-근사주기와 γ-근사주기
정수로 표현된 문자열에 대한 (δ, γ)-매칭은 음악서열이나 주가 연구에 응용될 수 있다. 본 논문에서는 정수문자집합에 대한 문자열의 δ-근사주기와 γ-근사주기의 개념을 제시한다. 또한 최소 δ-근사주기와 최소 γ-근사주기를 각각 O(n²) 시간에 찾는 알고리즘들을 제시하고 수행시간을 측정한 결과를 보인다.