검색 : [ author: 이익훈 ] (2)

추가 정보를 고려한 상품 리뷰 요약 기법

윤재연, 이익훈, 이상구

http://doi.org/10.5626/JOK.2020.47.2.180

문서 요약은 주어진 문서로부터 특정 사용자나 작업에 적합한 형태로 축약한 문서를 생성하는 것을 의미한다. 인터넷 사용이 증가함에 따라, 텍스트를 포함한 다양한 데이터들이 폭발적으로 증가하고 있고, 문서 요약 기술이 지니는 가치는 증대되고 있다. 최신 딥러닝 기반 모델들이 좋은 요약 성능을 보이지만, 학습 데이터들의 양과 질에 따라 성능이 좌우되는 문제점이 있다. 예를 들어, 온라인 쇼핑몰의 상품리뷰 데이터의 경우, 오탈자와 비문법적인 텍스트 특징 때문에 기존 모델로 좋은 요약을 생성하기 힘들다. 이러한 문제를 해결하려고 온라인 쇼핑몰과 포탈 서비스가 많은 노력을 하고 있다. 따라서 본 연구에서는 리뷰 학습 데이터의 양과 질이 열악하더라도 적절한 문서 요약을 생성하기 위해, 주어진 상품 리뷰의 추가 정보를 이용해서 상품 리뷰 요약을 생성하는 모델을 제안한다. 더불어, 실험을 통해 제안한 기법의 문서 요약이 기존 기법보다 요약의 관련성과 가독성 측면에서 향상되었음을 보였다.

신조어 및 띄어쓰기 오류에 강인한 시퀀스-투-시퀀스 기반 한국어 형태소 분석기

최병서, 이익훈, 이상구

http://doi.org/10.5626/JOK.2020.47.1.70

한국어 커뮤니티 등에서 수집되는 인터넷 텍스트 데이터를 형태소 분석하기 위해서는, 띄어쓰기 오류가 있는 문장에서도 정확히 형태소 분석을 해내야 하고, 신조어 등의 사전 외 어휘 입력에 대한 원형복원 성능이 충분해야 한다. 그러나 기존 한국어 형태소분석기는 원형복원에 사전 또는 규칙 기반 알고리즘을 사용하는 경우가 많다. 본 논문에서는 시퀀스-투-시퀀스 모델을 기반으로 띄어쓰기 문제와 신조어 문제를 효과적으로 처리할 수 있는 한국어 형태소 분석기 모델을 제안한다. 본 모델은 사전을 사용하지 않고, 규칙 기반 전처리를 최소화한다. 일반적으로 사용하는 음절 외에도 음절 바이그램과 자소를 입력자질로 같이 사용하며, 공백을 제거한 데이터를 학습 데이터로 같이 사용한다. 제안 모델은 세종 말뭉치를 이용한 실험에서 사전을 사용하지 않는 기존 형태소 분석기에 비해 뛰어난 성능이 나왔다. 띄어쓰기가 없는 데이터셋 및 인터넷에서 직접 수집한 데이터셋에 대해서도 높은 성능이 나오는 것을 확인하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr