검색 : [ author: 김학수 ] (24)

듀얼 포인터 네트워크를 사용한 다중 개체 간의 관계 추출

박성식, 김학수

http://doi.org/10.5626/JOK.2019.46.11.1186

정보 추출은 비정형 텍스트로부터 정형 데이터를 자동으로 추출하는 기술이다. 최근 대용량의 비정형 텍스트가 급격히 증가함에 따라 정보 추출에 대한 많은 연구가 이루어지고 있다. 정보 추출은 크게 개체 연결과 관계 추출 두 가지 기술로 구성되며 관계 추출은 정보 추출에 있어 가장 핵심이 되는 기술이다. 최근까지 대부분의 관계 추출 연구는 문장에 한 쌍의 개체만 존재한다고 가정하며 단일 개체 쌍간의 관계를 추출하는데 초점이 맞춰져 있다. 그러나 실제로 문장에는 한 쌍 이상의 개체가 존재할 수 있다. 본 논문은 주어진 문장에서 가능한 모든 개체 쌍 간의 관계를 추출할 수 있는 듀얼 포인터 네트워크 기반 관계 추출 모델을 제안한다. 제안 모델은 관계 추출에 대표적으로 사용되는 영문 데이터 셋인 ACE-2005 데이터 셋과 NYT 데이터 셋으로 실험을 진행했으며, ACE-2005에서 F1 점수 0.8050, NYT 데이터 셋에서 F1 점수 0.7834로 가장 높은 성능을 보였다.

자모 단위 합성곱 신경망 기반 맞춤법 오류가 포함된 자주 묻는 질문 자동 분류

장영진, 김학수, 강동호, 김세빈, 장현기

http://doi.org/10.5626/JOK.2019.46.6.563

웹이나 모바일 사용자는 홈페이지에 구축된 자주 묻는 질문 시스템(Frequently Asked Question: FAQ, 이하 FAQ)을 이용하여 원하는 정보를 얻는다. 기존 FAQ 시스템은 검색 모델을 기반으로 입력과 가장 유사하다고 판단되는 질의응답 후보를 사용자에게 보여준다. 하지만 검색 모델은 문서 색인에 의존하기 때문에 입력 문장의 맞춤법 오류에 취약하다. 따라서 본 논문에서는 FAQ 시스템을 문장분류기에 적용하여 맞춤법 오류를 최소화하는 모델을 제안한다. 자모 단위 합성곱 신경망을 이용한 임베딩 계층을 통해 사용자 입력의 맞춤법 오류를 줄이고, 클래스 임베딩과 전방 전달 신경망을 적용하여 분류기의 성능을 높였다. 제안 모델은 457개와 769개의 FAQ 클래스 분류에 대한 실험 결과로 Micro F1 score 기준 각각 81.32%p, 61.11%p의 높은 성능을 보였으며, 모델 예측의 신뢰도를 평가하기 위해 sigmoid 함수를 이용하여 신뢰도를 수치화했다.

문장 임베딩 기반 텍스트랭크를 이용한 문서 요약

정석원, 김진태, 김학수

http://doi.org/10.5626/JOK.2019.46.3.285

문서 요약은 원본 문서가 가진 주요 내용을 유지하는 축약된 크기의 문서를 만들어내는 것이다. 추출 요약은 원문에서 많은 양의 텍스트를 복사하는 것으로 문법과 정확성의 기본 수준을 보장받을 수 있어 과거부터 활발히 연구되어 왔다. 추출 요약에 사용되는 대표적 방법인 텍스트랭크는 단어의 빈도를 통해 그래프의 간선을 계산하므로 문장이 가진 의미적인 정도를 고려하기 어렵다. 이러한 단점을 해결하기 위해 본 논문에서는 문장 임베딩을 사용하는 새로운 텍스트랭크를 제안한다. 다양한 임베딩 평가를 통해 제안 방법이 일반적인 텍스트랭크 방법보다 문장의 의미를 잘 고려한 결과를 출력한다는 것을 확인하였다.

소량의 대화 말뭉치에서 학습 가능한 효과적인 생성 기반 챗봇 모델

김진태, 이현구, 김학수

http://doi.org/10.5626/JOK.2019.46.3.246

잘 알려진 검색 기반 챗봇 모델과 다르게 생성 기반 챗봇 모델은 사전에 정의된 응답에 의존하지 않고 학습된 신경망 모델을 사용하여 새로운 응답을 생성한다. 하지만 생성 기반 챗봇 모델은 발화-응답 쌍의 형태를 가진 대용량의 대화 말뭉치가 필요하다. 학습 말뭉치가 충분하지 않은 경우 구문론적 오류가 발생한다. 본 논문은 이 문제를 해결하기 위해 인코딩-디코딩 단위를 형태소와 음절이 복합적으로 사용된 시퀀스-투-시퀀스 신경망 기반의 챗봇을 제안한다. 또한 대용량의 비 대화 말뭉치를 이용하여 사전 학습하고 소량의 대화 말뭉치를 이용하여 재학습하는 2단계 학습 방법을 제안한다. 소량의 대화 말뭉치(47,089개의 발화-응답 쌍 학습 데이터와 3,000개의 발화-응답 쌍 평가 데이터)를 사용한 실험에서 제안한 인코딩-디코딩 단위는 미등록어 문제를 감소시키는데 도움을 주었고, 2단계 학습 방법은 BLEU와 ROUGE와 같은 성능 향상에 도움을 주었다.

강화학습과 이중 상호 집중을 이용한 한국어 기계독해

이현구, 김학수

http://doi.org/10.5626/JOK.2018.45.9.932

기계독해는 주어진 문서를 질문을 통해 이해하고 추론하여 문서에 나타나는 정답을 출력하는 질의응답 모델이다. 이러한 기계독해는 다양한 주의집중 방법과 종단형 신경망 모델을 기반으로 한다. 그러나 기존의 모델들은 문법적 정보와 구문 정보를 사용하지 않기 때문에 어휘 간의 긴 의존성을 가진 대답을 찾기 어려운 단점이 있다. 본 논문에서는 이러한 문제를 해결하기 위해 품사와 의존 구문 최단 경로를 반영한 이중 주의집중 방법의 기계독해 모델을 제안한다. 또한, 성능을 향상시키기 위해 F1-score를 보상으로 하는 강화학습 방법을 제안한다. 문서와 질의로 구성된 18,863개의 실험 데이터에서 제안 시스템은 이전의 대표적인 모델보다 높은 성능(완전 일치 정확도: 0.4566, F1-score: 0.7290)을 보였다.

생성 기반 질의응답 채팅 시스템에서의 정답 반복 문제 해결

김시형, 김학수

http://doi.org/10.5626/JOK.2018.45.9.925

질의응답 채팅 시스템은 간단한 사실적 질문을 지식베이스 검색을 통하여 응답하는 채팅 시스템이다. 최근에 많은 sequence-to-sequence 채팅 시스템은 생성 모델의 새로운 가능성을 보였다. 그러나 생성기반 채팅 시스템은 같은 단어를 반복해서 생성하는 단어 반복 문제가 존재한다. 질의응답 채팅 시스템에서는 같은 정답이 반복되어 생성되는 문제를 가지고 있다. 이러한 문제를 해결하기 위해, 본 논문에서는 디코더에서 커버리지 방법과 ACA(Adaptive control of attention) 방법을 sequence-to-sequence 모델에 반영하는 방법을 제안한다. 또한 응답에서 중복되지 않은 단어의 개수를 반영하는 반복 손실 함수를 제안한다. 제안된 방법은 정밀도, BLEU, ROUGE-1, ROUGE-2, ROUGE-L, Distinct-1 모든 지표에서 높은 성능을 보일 뿐만 아니라, 다른 반복 출력 문제 해결을 위한 모델과의 결합에서도 좋은 성능을 보였다.

생성 기반 질의응답 채팅 시스템 구현을 위한 지식 임베딩 방법

김시형, 이현구, 김학수

http://doi.org/10.5626/JOK.2018.45.2.134

채팅 시스템은 사람의 말을 기계가 이해하고 적절한 응답을 하는 시스템이다. 채팅 시스템은 사용자의 간단한 정보 검색 질문에 대답해야 하는 경우가 있다. 그러나 기존의 생성 채팅 시스템들은 질의응답에 필요한 정보인 지식 개체(트리플 형태 지식에서의 주어와 목적어)의 임베딩을 고려하지 않아 발화에 나타나는 지식 개체가 다르더라도 같은 형태의 답변이 생성되었다. 본 논문에서는 생성 기반 채팅시스템의 질의응답 정확도를 향상시키기 위한 지식 임베딩 방법을 제안한다. 개체와 유의어의 지식 임베딩을 위해 샴 순환 신경망을 사용하며 이를 이용해 주어와 술어를 인코딩 하고 목적어를 디코딩하는 sequence-to-sequence 모델의 성능을 향상 시켰다. 자체 구축한 채팅데이터를 통한 실험에서 제안된 임베딩 방법은 종래의 합성곱 신경망을 통한 임베딩 방법 보다 12.48% 높은 정확도를 보였다.

Convolutional Neural Network에서 공유 계층의 부분 학습에 기반 한 화자 의도 분석

김민경, 김학수

http://doi.org/10.5626/JOK.2017.44.12.1252

대화에서 화자의 의도는 감정, 화행, 그리고 서술자로 표현될 수 있다. 따라서 사용자 질의에 정확하게 응답하기 위해서 대화 시스템은 발화에 내포된 감정, 화행, 그리고 서술자를 파악해야한다. 많은 이전 연구들은 감정, 화행, 서술자를 독립된 분류 문제로 다뤄왔다. 그러나 몇몇 연구에서는 감정, 화행, 서술자가 서로 연관되어 있음을 보였다. 본 논문에서는 Convolutional Neural Netowork를 이용하여 감정, 화행, 서술자를 동시에 분석하는 통합 모델을 제안한다. 제안 모델은 특정 추상화 계층과, 공유 추상화 계층으로 구성된다. 특정 추상화 계층에서는 감정, 화행, 서술자의 독립된 정보가 추출되고 공유 추상화 계층에서 독립된 정보들의 조합이 추상화된다. 학습 시 감정의 오류, 화행의 오류, 서술자의 오류는 부분적으로 역 전파 된다. 제안한 통합 모델은 실험에서 독립된 모델보다 좋은 성능(감정 +2%p, 화행 +11%p, 서술자 +3%)을 보였다.

주의집중 및 복사 작용을 가진 Sequence-to-Sequence 순환신경망을 이용한 제목 생성 모델

이현구, 김학수

http://doi.org/10.5626/JOK.2017.44.7.674

대용량의 텍스트 문서가 매일 만들어지는 빅데이터 환경에서 제목은 문서의 핵심 아이디어를 빠르게 집어내는데 매우 중요한 단서가 된다. 그러나 블로그 기사나 소셜 미디어 메시지와 같은 많은 종류의 문서들은 제목을 갖고 있지 않다. 본 논문에서는 주의집중 및 복사 작용을 가진 sequence-to-sequence 순환신경망을 사용한 제목 생성 모델을 제안한다. 제안 모델은 양방향 GRU(Gated Recurrent Unit) 네트워크에 기반 하여 입력 문장을 인코딩(encoding)하고, 입력 문장에서 자동 선별된 키워드와 함께 인코딩된 문장을 디코딩함으로써 제목 단어들을 생성한다. 93,631문서의 학습 데이터와 500문서의 평가 데이터를 가진 실험에서 주의집중 작용방법이 복사 작용방법보다 높은 어휘 일치율(ROUGE-1: 0.1935, ROUGE-2:0.0364, ROUGE-L: 0.1555)을 보였고 사람이 정성평가한 지표는 복사 작용방법이 높은 성능을 보였다.

의학문서 질의응답을 위한 정답 스닛핏 검색

이현구, 김민경, 김학수

http://doi.org/

온라인 의학 문서의 폭발적 증가와 함께 질의응답 시스템에 대한 필요성이 늘어나고 있다. 최근에는 기계학습에 기반 한 질의응답 모델들이 다양한 영역에서 좋은 결과를 보여 왔다. 그러나 의학 영역에서 질의응답 모델들은 학습 데이터의 부족으로 인해 여전히 정보 검색 기술에 기반을 두고 있다. 본 논문에서는 다양한 정보검색 기술에 기반 한 의학문서 질의응답용 정답 스닛핏 검색 모델을 제안한다. 제안 모델은 먼저 클러스터 기반 검색 기술을 이용하여 의학 문서로부터 많은 정답 후보 문장을 검색한다. 그리고 다양한 문장 검색 기술들에 기반 한 정답 후보 문장 재순위화 모델을 사용하여 신뢰성 있는 정답 스닛핏을 생성한다. BioASQ 4b 데이터를 이용한 실험에서 제안 모델은 기존 모델보다 좋은 성능(MAP0.0604)을 보였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr