검색 : [ author: 김주애 ] (2)

배깅 기반의 부트스트래핑을 이용한 개체명 인식 학습 기법

정유진, 김주애, 고영중, 서정연

http://doi.org/10.5626/JOK.2018.45.8.825

기존 개체명 인식 연구는 지도학습에 기반한 개체명인식이 주를 이루고 있다. 지도학습에 기반한 개체명인식이 좋은 성능을 보이고 있지만, 대량의 정답 말뭉치를 구축하기 위해 많은 시간과 비용을 필요로 한다는 문제점이 있다. 본 논문에서는 이러한 문제를 해결하기 위해, 대량의 말뭉치에 수동으로 정답을 부여하기 위한 노력 없이, 개체명 인식 모델이 자동 생성한 정답을 학습에 사용하는 개체명 인식 모델 학습 기법을 제안한다. 제안 방법은 소량의 개체명 정답 말뭉치만으로 대량의 개체명 정답을 자동 생성하여 학습에 사용하므로, 대량의 정답 말뭉치를 생성하기 위해 필요한 시간과 비용을 크게 절감시킨다. 추가적으로 배깅 기법을 사용하여 자동 생성한 정답들 중 오류를 제거한다. 부트스트래핑 기법과 배깅 기법을 추가하였을때, F1 점수 최고 70.67%를 기록하였다. 비교를 위한 기본 CRF 개체명 인식 모델의 F1 점수는 65.59%를 기록하였다.

다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템

권순재, 김주애, 강상우, 서정연

http://doi.org/

커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr