디지털 라이브러리[ 검색결과 ]
SBERT-PRO: 의도와 사건 탐지에 적합한 서술어 중심의 문장 임베딩 모델
고동률, 이재윤, 이다희, 손유리, 김상민, 장재은, 김문형, 박상현, 김재은
http://doi.org/10.5626/JOK.2024.51.2.165
의도 탐지는 대화시스템에서 사용자의 발화 의도를 파악하는 중요한 과제이다. 또한 사건 탐지는 뉴스 기사, 소셜 미디어 게시물, 보고서 등의 수많은 텍스트에 특정 시간, 장소, 사람 등 육하원칙이 포함된 문장에서 실제 사건을 식별하는 중요한 과제이다. 언어모델의 발전에 따라, 언어모델을 활용한 의도와 사건 탐지에 대한 연구가 활발하게 진행되고 있으며, 오픈 도메인(Open-domain)에서 활용하기 위해 언어모델로 임베딩(Embedding)한 벡터 값 간의 유사도를 활용하여 의도 및 사건을 탐지하는 방법이 사용되고 있다. 하지만 일반적인 임베딩 모델을 활용한 문장 유사도 분석은 문장 내의 핵심어 정보에 치우친 분석을 하기 때문에, 문장 전체의 의미 파악이 필요한 의도 및 사건 탐지에 적합하지 않다. 본 논문에서는 문장의 주요핵심어로 사용되는 개체보다 문장 전체의 의미를 결정하는 서술어를 중심으로 임베딩 하는 것이 중요하다는 것에 착안하여, 개체명 인식(NER)과 개체관계(RE) 데이터셋을 활용하여, 개체 정보보다 서술어를 집중하여 임베딩 할 수 있는 대조학습 학습 데이터셋을 구축하고, 기존 문장 임베딩 모델에 적응학습을 하는 방안을 제안한다. 또한 제안하는 모델인 SBERT-PRO (PRedicate Oriented)가 공개된 문장 임베딩 모델보다 우수한 성능을 보이는 것을 입증한다.
자동화 팩트체킹을 위한 대조학습 방법
http://doi.org/10.5626/JOK.2023.50.8.680
최근 온라인 오정보 확산이 증가하면서 실시간 판단이 가능한 자동화 팩트체킹의 중요성이 강조되고 있다. 이 연구는 한국어 기반의 자동화 팩트체킹을 위한 대조학습 기술을 제안한다. 제안 방법은 주어진 주장의 진위 여부를 판단할 수 있도록 하는 근거 문장과 유사한 문장을 긍정 샘플로 사용한다. 성능 평가 실험을 통해 제안 방법이 사전학습 언어모델 미세조정, SimCSE 등 기존 방법에 비해 주어진 주장의 근거 문장을 찾는 문장 선택 단계에 있어 효과적임을 보였다. 이 연구는 자동화 팩트체킹을 위한 대조학습 기술의 가능성을 보인다.
대화 속 질문 유사성 분석을 위한 문장 임베딩 자질의 자동 추출 방법
http://doi.org/10.5626/JOK.2019.46.9.909
본 논문은 자연어 문장의 유사성을 분석할 수 있는 문장 임베딩 자질의 자동 추출 방법에 관해 기술한다. 질문 유사성 분석이란 질의 문장을 이해하기 위하여 자연어 질의 문장의 의미적 구조적 유사성을 분석하는 연구를 말하며, 이를 이용하여 질의응답 (Q&A) 및 대화 시스템에서 입력 질문에 대한 답변을 찾는데 활용할 수 있다. 본 논문에서 기술하는 문장의 유사성을 분석하는 방법은 딥러닝 모델을 통해 추출된 문장 임베딩 벡터를 자질로 이용한다. 음절과 실질 형태소와 같은 문장 내 표현의 순차적 정보를 반영하기 위해 순환 신경망(Recurrent Neural Network)을 이용하여 생성한 문장 벡터와 어순과 관계없이 유사한 표현의 등장 패턴을 특징으로 잡기 위한 복잡 신경망 (CNN)을 이용하여 생성한 문장 벡터를 사용한다. 본 논문에서는 은행 서비스와 관련된 대화 문장에서 자동 추출된 문장 임베딩 자질을 이용하여 문장 간 유사성 분석했을 때의 정확성과 품질을 평가한다.
문장 임베딩 기반 텍스트랭크를 이용한 문서 요약
http://doi.org/10.5626/JOK.2019.46.3.285
문서 요약은 원본 문서가 가진 주요 내용을 유지하는 축약된 크기의 문서를 만들어내는 것이다. 추출 요약은 원문에서 많은 양의 텍스트를 복사하는 것으로 문법과 정확성의 기본 수준을 보장받을 수 있어 과거부터 활발히 연구되어 왔다. 추출 요약에 사용되는 대표적 방법인 텍스트랭크는 단어의 빈도를 통해 그래프의 간선을 계산하므로 문장이 가진 의미적인 정도를 고려하기 어렵다. 이러한 단점을 해결하기 위해 본 논문에서는 문장 임베딩을 사용하는 새로운 텍스트랭크를 제안한다. 다양한 임베딩 평가를 통해 제안 방법이 일반적인 텍스트랭크 방법보다 문장의 의미를 잘 고려한 결과를 출력한다는 것을 확인하였다.