디지털 라이브러리[ 검색결과 ]
Graph2Tree 모델을 이용한 한국어 수학 문장제 문제 풀이
http://doi.org/10.5626/JOK.2022.49.10.807
본 논문은 8개 유형으로 이루어진 한국어 수학 문장제 문제 데이터셋을 자체적으로 구축하여 이를 기반으로 기존에 제시되지 않았던 Graph2Tree 모델 기반 한국어 수학 문장제 문제 자동 풀이 모델인 Ko-Graph2Tree 모델을 제시한다. 최근 공개된 Graph2Tree 모델은 영어 수학 문장제 문제 자동 풀이에 기존의 자연어 처리 모델들보다 뛰어난 성능을 보인 모델이다. 해당 모델은 문제 텍스트 내의 숫자 간 관계성 및 순서, 즉 수학적 관계를 반영한 두 가지의 그래프를 풀이 생성에 사용함으로써 기존의 트리 기반 모델들보다 향상된 성능을 보인다. 자체 제작한 한국어 수학 문장제 문제 데이터셋으로 학습시킨 후 성능을 측정한 결과, 시퀀스 투 시퀀스 구조의 트랜스포머 모델은 정확도가 42.3%, 본 논문이 제시한 Ko-Graph2Tree 모델은 정확도가 68.3%로 26.0%p 더 높은 성능을 보였다.
듀얼 포인터 네트워크를 사용한 다중 개체 간의 관계 추출
http://doi.org/10.5626/JOK.2019.46.11.1186
정보 추출은 비정형 텍스트로부터 정형 데이터를 자동으로 추출하는 기술이다. 최근 대용량의 비정형 텍스트가 급격히 증가함에 따라 정보 추출에 대한 많은 연구가 이루어지고 있다. 정보 추출은 크게 개체 연결과 관계 추출 두 가지 기술로 구성되며 관계 추출은 정보 추출에 있어 가장 핵심이 되는 기술이다. 최근까지 대부분의 관계 추출 연구는 문장에 한 쌍의 개체만 존재한다고 가정하며 단일 개체 쌍간의 관계를 추출하는데 초점이 맞춰져 있다. 그러나 실제로 문장에는 한 쌍 이상의 개체가 존재할 수 있다. 본 논문은 주어진 문장에서 가능한 모든 개체 쌍 간의 관계를 추출할 수 있는 듀얼 포인터 네트워크 기반 관계 추출 모델을 제안한다. 제안 모델은 관계 추출에 대표적으로 사용되는 영문 데이터 셋인 ACE-2005 데이터 셋과 NYT 데이터 셋으로 실험을 진행했으며, ACE-2005에서 F1 점수 0.8050, NYT 데이터 셋에서 F1 점수 0.7834로 가장 높은 성능을 보였다.
어휘 정보와 구문 패턴에 기반한 단일 클래스 분류 모델
관계 추출은 질의응답 및 지식확장 등에 널리 사용될 수 있는 주요 정보추출 기술이다. 정보추출에 관한 기존 연구들은 관계 범주가 수동으로 부착된 대용량의 학습 데이터를 필요로 하는 지도 학습모델을 기반으로 이루어져 왔다. 최근에는 학습 데이터 구축을 위한 인간의 노력을 줄이기 위해 원거리감독법이 제안되었다. 그러나 원거리 감독법은 분류 문제를 해결하는데 필수적인 부정 학습 데이터를 수집하기 어렵다는 단점이 있다. 이러한 원거리 감독법의 단점을 극복하기 위해 본 논문에서는 부정 데이터없이 학습이 가능한 단일 클래스 분류 모델을 제안한다. 입력 데이터로부터 긍정 데이터를 선별하기 위해서 제안 모델은 벡터 공간 상에서 어휘 정보와 구문 패턴에 기반한 유사도 척도를 사용하여 입력 데이터가 내부 범주에 속하는지 그렇지 않은지 판단한다. 실험에서 제안 모델은 대표적인 단일 클래스 분류 모델인 One-class SVM보다 높은 성능(0.6509 F1-점수, 0.6833 정밀도)을 보였다.