디지털 라이브러리[ 검색결과 ]
시간적 관계정보를 활용한 사전학습 언어모델 기반의 멀티태스크 학습 기법
http://doi.org/10.5626/JOK.2023.50.1.25
다수의 태스크를 처리 가능하면서 일반화된 성능을 제공할 수 있는 모델을 구축하는 자연어 이해 분야의 연구에서는 멀티태스크 학습 기법에 대한 연구가 다양하게 시도되고 있다. 또한, 자연어 문장으로 작성된 문서들에는 대체적으로 시간에 관련된 정보가 포함되어 있을 뿐만 아니라, 문서의 전체 내용과 문맥을 이해하기 위해서 이러한 정보를 정확하게 인식하는 것이 중요하다. 본 논문에서는, 한국어 입력문장의 시간적 맥락정보를 활용할 수 있도록 NLU 태스크들의 학습 과정에서 시간관계 추출 태스크를 추가한 멀티태스크 학습 기법을 제안한다. 멀티태스크 학습의 특징을 활용하기 위해서 시간적 관계정보를 추출하는 태스크를 설계하고 기존의 NLU 태스크와 조합하여 학습하도록 모델을 구성한다. 실험에서는 학습태스크들을 다양하게 조합하여 성능 차이를 분석하며, 기존의 NLU 태스크만 사용했을 경우에 비해 추가된 시간적 관계정보가 어떤 영향을 미치는지 확인한다. 실험결과를 통하여 전반적으로 멀티태스크 조합의 성능이 개별 태스크의 성능보다 높은 경향을 확인하며, 특히 개체명 인식에서 시간관계가 반영될 경우에 크게 성능이 향상되는 결과를 볼 수 있다.
뉴럴-심볼릭 순위화 모델 기반 2단계 단락 재순위화 모델
http://doi.org/10.5626/JOK.2021.48.5.501
자연어 질의응답 시스템과 관련한 이전의 연구들은 주어진 질문과 단락으로부터 정확한 정답을 추출하는 문제에 초점을 맞추고 있다. 그러나, 기계독해에서 오픈 도메인 질의응답으로 문제를 확장하였을 때, 정답이 포함된 단락을 잘 찾는 것이 기계독해 못지않은 중요한 요소이다. DrQA에서는 초기 검색 단계를 포함하여 질의응답을 하였을 때 Exact Match@Top1 성능이 69.5%에서 27.1%로 하락했다고 평가하였다. 본 논문에서는 질의응답 시스템 성능 향상을 위해 2단계 단락 재순위화 모델을 제안한다. 2단계 단락 재순위화 모델은 심볼릭 순위화 모델과 뉴럴 순위화 모델의 결과를 통합하여 다시 재순위화하는 모델이다. 심볼릭 순위화 모델은 CatBoost 알고리즘과 질문과 단락 간의 자질을 기반으로 단락을 순위화 하고, 뉴럴 순위화 모델은 한국어 딥러닝 언어모델(KorBERT)을 사후학습하여 순위화하였다. 2단계 모델은 뉴럴 리그레션 모델에 기반하여 순위화하였다. 본 논문에서는 특징이 다른 순위화 모델을 결합하여 성능을 극대화하였고, 최종적으로 제안한 모델은 1,000건의 질문을 평가하였을 때 MRR 기준 85.8%과 BinaryRecall@Top1기준 82.2%의 성능을 보였고, 각 성능은 베이스라인 모델보다 17.3%(MRR), 22.3%(BR@Top1)이 향상되었다.
듀얼 포인터 네트워크를 사용한 다중 개체 간의 관계 추출
http://doi.org/10.5626/JOK.2019.46.11.1186
정보 추출은 비정형 텍스트로부터 정형 데이터를 자동으로 추출하는 기술이다. 최근 대용량의 비정형 텍스트가 급격히 증가함에 따라 정보 추출에 대한 많은 연구가 이루어지고 있다. 정보 추출은 크게 개체 연결과 관계 추출 두 가지 기술로 구성되며 관계 추출은 정보 추출에 있어 가장 핵심이 되는 기술이다. 최근까지 대부분의 관계 추출 연구는 문장에 한 쌍의 개체만 존재한다고 가정하며 단일 개체 쌍간의 관계를 추출하는데 초점이 맞춰져 있다. 그러나 실제로 문장에는 한 쌍 이상의 개체가 존재할 수 있다. 본 논문은 주어진 문장에서 가능한 모든 개체 쌍 간의 관계를 추출할 수 있는 듀얼 포인터 네트워크 기반 관계 추출 모델을 제안한다. 제안 모델은 관계 추출에 대표적으로 사용되는 영문 데이터 셋인 ACE-2005 데이터 셋과 NYT 데이터 셋으로 실험을 진행했으며, ACE-2005에서 F1 점수 0.8050, NYT 데이터 셋에서 F1 점수 0.7834로 가장 높은 성능을 보였다.
학술논문 PDF에 대한 딥러닝 기반의 메타데이터 추출 방법 연구
http://doi.org/10.5626/JOK.2019.46.7.644
최근 학술문헌의 수가 빠르게 증가함에 따라, 최신 연구 동향 및 정보를 얻기 위한 학술데이터 베이스 서비스의 필요성이 대두되었다. 학술데이터베이스 구축을 위한 메타데이터 추출 자동화 서비스가 연구되었으나, 대부분의 학술문헌 원문은 PDF로 구성되어 자동적인 정보 추출이 쉽지 않은 문제가 있다. 이에 본 연구는 학술문헌 PDF에 대한 메타데이터 자동 추출 방법을 제안한다. 먼저 학술문헌 PDF를 XML 형식으로 변환한 이후, XML 마크업 토큰 내의 좌표, 크기, 넓이와 텍스트 자질을 추출하여 벡터 형태로 구성한다. 추출된 자질 정보를 연속적 레이블링에 특화된 딥러닝 모델인 Bidirectional GRU-CRF를 활용하여 분석하고 메타데이터를 추출한다. 본 연구에서는 국내 학술지 중 10종을 선정하여 메타데이터 추출을 위한 학습집합을 구축하고, 제안한 방법론을 활용하여 실험하였다. 9종의 메타데이터에 대한 추출실험 결과, 88.27%의 정확도와 84.39%의 F1 성능을 얻었다.
Automatic Product Review Helpfulness Estimation based on Review Information Types
온라인 상품평 양의 비약적 증가로 인해 소비자들이 유용한 상품평 만을 찾는 것이 거의 불가능에 가까워졌다. 이 연구는 온라인 상품평의 유용성을 자동적으로 평가할 수 있는 토대를 마련하는데 그 목적이 있다. 이를 위해 상품평을 이루는 문장에 담긴 정보를 설명하는 그 대상에 따라 종류를 나눌 수 있도록 상품평 정보 분류를(Review Information Types) 제안하고, 각 정보 분류 내에서 문장의 주제 벡터 변환 방법과 군집화를 이용하여 더 세부적으로 각 문장이 어떤 정보를 제공하는지를 추출함으로써 각 상품평이 제공하는 정보에 따라 그 유용성을 평가하는 방법을 제안한다. 이러한 시도는 잠재적 소비자들이 상품평에서 상품 자체의 특성이나 상품평 제공자의 경험과 같은 정보를 배송과 같은 정보보다 중요하게 생각할 것이라는 가정에서 시작했다. 자동 상품평 유용성 평가 실험을 통해 본 연구에서 제시하는 방법이 기존의 비교 가능한 연구들에 비해 더 효과적인 것을 밝혀냈다.