검색 : [ author: 권성구 ] (3)

문장의 의미적 유사도와 정보량을 사용한 다중 문서 요약

임연수, 권성구, 김봉민, 박성배

http://doi.org/10.5626/JOK.2023.50.7.561

간결한 형식으로 정보를 전달하는 문서 요약 기술은 최근 자연어처리 분야의 중요한 과제로 떠오르고 있다. 하지만, 여러 문서가 주어질 때 이들의 정보를 파악하고 요약하는 다중 문서 요약은 학습에 적합한 데이터가 부족해 연구에 어려움이 있다. 본 논문에서는 이러한 문제를 해결하기 위해 단일 문서에 대한 요약문을 생성한 뒤 요약문을 후처리하는 방식의 다중 문서 요약 모델을 제안한다. 제안 모델은 요약 모듈, 유사도 측정 모듈, 정보량 랭킹 모듈로 이루어져 있다. 다중 문서가 제안 모델에 입력되면 요약 모듈은 각 문서에 대한 요약문을 생성한다. 유사도 측정 모듈에서 생성된 요약문에 대해 의미적 유사도를 측정해 유사한 요약문들을 클러스터링한다. 정보량 랭킹 모듈은 유사한 요약문 그룹에서 가장 정보량이 큰 요약문을 선택하고, 선택된 요약문을 모아 최종 요약문으로 출력한다. 실험을 통해 본 논문에서 제안한 다중 문서 요약 모델과 개별 모듈의 우수성을 확인했다.

지식베이스로부터 자연어 문장 생성을 위한 노이즈 추가 기법

권성구, 박세영

http://doi.org/10.5626/JOK.2020.47.10.965

지식베이스로부터 자연어 문장 생성이란 지식베이스 내 트리플을 입력하여 트리플이 내포하고 있는 정보, 즉 개체와 각 개체간의 관계를 포함하고 있는 자연어 문장을 생성하는 작업이다. 해당 작업을 심층신경망 방식으로 해결하기 위해서는 많은 트리플과 자연어 문장 쌍으로 구성된 학습데이터가 필요하다. 하지만 이와 같은 공개 된 한국어 학습데이터는 존재하지 않기 때문에 학습에 어려움을 겪고 있다. 본 논문에서는 이러한 학습 데이터 부족 문제를 해결하기 위하여 한국어 위키피디아 문장 데이터를 기반으로 핵심어를 추출한 뒤, 노이즈 추가 기법을 이용해 학습 데이터를 생성하는 비지도 학습 방법을 제안한다. 제안 모델을 평가하기 위하여 사람이 직접 제작한 트리플과 자연어 문장 쌍 정답 데이터를 이용하여 평가를 수행하였다. 자동 평가와 수동 평가 결과, 노이즈 추가 기법을 이용한 자연어 문장 생성 모델이 기존 비지도 학습 데이터를 이용한 모델보다 여러 측면에서 높은 성능을 보였다.

CNN 기반 관계 추출 모델의 성능 향상을 위한 다중-어의 단어 임베딩 적용

남상하, 한기종, 김은경, 권성구, 정유성, 최기선

http://doi.org/10.5626/JOK.2018.45.8.816

관계 추출이란 문장 내 두 개체간의 관계를 분류하는 것으로, 많은 연구들이 관계추출 모델을 설계함에 있어 원격 지도학습 방식을 이용하고 있다. 그리고 최근 딥러닝의 발전으로 다양한 연구에서 관계 추출 모델 설계 시 CNN 또는 RNN 등의 딥러닝 모델을 적용하는 것이 주요 흐름으로 발전하고 있다. 그러나 기존 연구들에서는 모델 학습의 입력으로 사용되는 단어 임베딩의 동형이의어 문제를 해결하지 않았다는 단점이 있다. 따라서 서로 다른 의미를 가진 동형이의어가 하나의 임베딩 값으로 모델 학습이 진행되고, 그에 따라 단어의 의미를 정확히 파악하지 못한 채 관계 추출 모델을 학습한다고 볼 수 있다. 본 연구에서는 다중-어의 단어 임베딩을 적용한 관계 추출 모델을 제안한다. 다중-어의 단어 임베딩 학습을 위해 CoreNet Concept 기반의 어의 중의성 해소 모듈을 활용하였고, 관계추출 모델은 문장 내 주요 키워드를 스스로 학습하는 CNN 모델과 PCNN 모델 2가지를 활용하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr