디지털 라이브러리[ 검색결과 ]
순차적 레이블링을 통한 한국어 의존 구문분석
http://doi.org/10.5626/JOK.2024.51.12.1053
의존 구문분석은 언어 분석에서 중요한 단계로, 문장 내 어절 간의 관계를 파악하는 과정이다. 최근 자연어 처리 분야에서는 트랜스포머 계열의 사전 학습 모델들이 다양한 자연어처리 연구에서 뛰어난 성능을 보이며, 의존 구문분석에도 적용되었다. 기존의 사전 학습 모델을 적용한 의존 구문분석은 크게 두 단계로 처리되었다. 첫째, 사전 학습 모델을 통해 생성된 토큰 단위 임베딩을 어절 단위 임베딩으로 병합한다. 둘째, 구성된 임베딩을 비교하거나 분류하는 단계를 통해 의존 관계를 분석한다. 그러나 사전 학습 모델의 특성상 파라미터가 많고, 추가적인 계층을 통해 임베딩을 구성·비교·분류하는 과정이 포함되어 시간 및 메모리의 효율성이 떨어지는 문제가 있었다. 본 논문에서는 의존 구문분석 세트 단위를 정의하고, 계층 축소를 통해 학습 및 추론의 효율성을 높인 순차적 레이블링 기반의 의존 구문분석 기법을 제안한다. 구문분석 세트를 정의하기 위해 스페셜 토큰을 추가하여 어절 단위 임베딩 병합 단계를 생략하였으며, 계층 축소로 파라미터 수를 효율적으로 줄여 학 습 및 추론에 필요한 시간을 크게 단축하였다. 제안된 모델은 의존 구문분석에서 유의미한 성능을 보인다.
약물 정보 문서 임베딩을 활용한 딥러닝 기반 약물 간 상호작용 예측 모델
http://doi.org/10.5626/JOK.2024.51.6.503
다약제는암,고혈압,천식 등 다양한 질병에 대하여 유망한 접근법이다.일반적으로 병원에 방문하는 환자는 2종 이상의 약물을 처방받는다. 그러나 다약제의 사용은 개별 약물이 목표하는 작용 외에 예상치 못한 상호작용을 유발할 수 있다. 약물 간 상호작용을 사전에 예측하는 것은 안전한 약물 사용을 위한 매우 중요한 과제이다. 본 연구에서는 다약제 사용 시 발생 가능한 약물 간 상호작용 예측을 위해 개별 약물 정보를 포함한 문서를 이용하여 약물을 표현하는 문서 임베딩 기반의 딥러닝 예측 모델을 제안 한다. 약물 정보 문서는 DrugBank 데이터를 이용해 약물의 설명, 적응증, 약력학 정보, 작용 기전, 독성 속성을 결합해 구축한다. 그 후 Doc2Vec, BioSentVec 언어 모델을 통해 약물 문서로부터 약물 표현 벡터 를 생성한다. 두 약물 표현 벡터는 한 쌍으로 묶여 딥러닝 기반 예측 모델에 입력되고, 해당 모델은 두 약물 간 상호작용을 예측한다. 본 논문에서는 언어 임베딩 모델의 성능 비교, 데이터의 불균형도 조절 등 다 양한 조건의 변화에 따른 실험 결과의 차이를 분석하여 약물 간 상호작용 예측을 위한 최적의 모델을 구 축하는 것을 목표로 한다. 제안된 모델은 약물 처방 과정, 신약 개발의 임상 과정 등에서 약물간 상호작용 사전 예측을 위하여 활용될 수 있을 것으로 기대된다.
그래프 동형 모델을 이용한 탈수소화 엔탈피 예측
http://doi.org/10.5626/JOK.2024.51.5.406
본 논문은 분자의 구조 정보를 이용하는 기존의 물성 예측 접근에 그래프 합성곱 신경망 모델을 병합하여 분자 임베딩을 생성, 이상적인 액상유기수소운반체 선정에 중요한 역할을 하는 탈수소화 엔탈피를 예측하는 연구를 소개한다. 제안하는 방법은 그래프 합성곱 모델 중 가장 좋은 표현력을 가진 것으로 알려진 그래프 동형 모델(Graph Isomorphism Network)을 사용했으며, 해당 모델을 통해 개별 분자를 구성하는 원자 정보를 바탕으로 분자 임베딩을 생성했을 때, 기존의 물리화학(chemical physics) 이론에 기반한 알고리즘에 비해 탈수소화 엔탈피를 예측하는데 더 적합한 임베딩을 생성할 수 있음을 관찰하였다. 또한 생략 연결 (skip connection)을 사용하여 깊은 그래프 합성곱 층을 구성할 수 있으며, 작은 배치 사이즈로 모델을 학습할 때 모델의 성능이 증가하는 경향성을 관찰한 내용을 보고한다.
SBERT-PRO: 의도와 사건 탐지에 적합한 서술어 중심의 문장 임베딩 모델
고동률, 이재윤, 이다희, 손유리, 김상민, 장재은, 김문형, 박상현, 김재은
http://doi.org/10.5626/JOK.2024.51.2.165
의도 탐지는 대화시스템에서 사용자의 발화 의도를 파악하는 중요한 과제이다. 또한 사건 탐지는 뉴스 기사, 소셜 미디어 게시물, 보고서 등의 수많은 텍스트에 특정 시간, 장소, 사람 등 육하원칙이 포함된 문장에서 실제 사건을 식별하는 중요한 과제이다. 언어모델의 발전에 따라, 언어모델을 활용한 의도와 사건 탐지에 대한 연구가 활발하게 진행되고 있으며, 오픈 도메인(Open-domain)에서 활용하기 위해 언어모델로 임베딩(Embedding)한 벡터 값 간의 유사도를 활용하여 의도 및 사건을 탐지하는 방법이 사용되고 있다. 하지만 일반적인 임베딩 모델을 활용한 문장 유사도 분석은 문장 내의 핵심어 정보에 치우친 분석을 하기 때문에, 문장 전체의 의미 파악이 필요한 의도 및 사건 탐지에 적합하지 않다. 본 논문에서는 문장의 주요핵심어로 사용되는 개체보다 문장 전체의 의미를 결정하는 서술어를 중심으로 임베딩 하는 것이 중요하다는 것에 착안하여, 개체명 인식(NER)과 개체관계(RE) 데이터셋을 활용하여, 개체 정보보다 서술어를 집중하여 임베딩 할 수 있는 대조학습 학습 데이터셋을 구축하고, 기존 문장 임베딩 모델에 적응학습을 하는 방안을 제안한다. 또한 제안하는 모델인 SBERT-PRO (PRedicate Oriented)가 공개된 문장 임베딩 모델보다 우수한 성능을 보이는 것을 입증한다.
계층적 표현 및 레이블 임베딩을 활용한 국내 논문 문장 의미 분류 모델
http://doi.org/10.5626/JOK.2024.51.1.41
논문 문장의 의미는 계층적인 구조를 가지며, 하위 카테고리 간에 데이터 불균형이 존재한다. 또한, 논문 문장의 의미는 논문 내에서의 위치와 밀접한 관련이 있다. 기존의 단일 수준 분류 방법은 주로 하위 카테고리만 고려하기 때문에 데이터 불균형으로 인한 분류 정확도 감소 문제가 발생한다. 이에 대응하여, 본 연구에서는 문장의 계층적 의미 분류를 효과적으로 수행하기 위한 계층적 표현 및 레이블 임베딩 방법을 제안한다. 더불어, 논문의 섹션명을 적극적으로 활용하여 논문 문장의 위치 정보를 표현한다. 실험을 통해 KISTI의 국내 논문 문장 의미 태깅 데이터셋에서 계층 정보와 위치 정보를 명시적으로 고려한 제안 방법이 F1 점수에서 우수한 성능을 보임을 확인했다.
Tensor-Train Decomposition을 적용한 임베딩 레이어를 위한 연산 최적화 기법
http://doi.org/10.5626/JOK.2023.50.9.729
개인 맞춤형 추천 시스템은 일상에 녹아 들어있다. 하지만 딥 러닝 기반 추천 시스템 모델에서 임베딩 레이어는 과거 유저가 상호 작용하는 아이템 수가 늘어남에 따라, 임베딩 테이블의 메모리 사용량이 늘어 산업용 AI 데이터 센터의 리소스 대부분을 차지하고 있다. 이 문제를 극복하기 위한 해결책 중 하나는 심층 신경망에서 유망한 압축 기법인 Tensor-Train (TT) 분해이다. 본 연구에서는 TT-분해 기법이 적용된 임베딩 레이어의 연산인 Tensor-Train Gather and Reduce (TT-GnR)에서 발생하는 불필요한 연산에 관해 분석하고 이를 해결하기 위해 아이템 벡터들을 하나로 묶는 연산 단위인 그룹을 정의하고 그룹 단위로 연산하여 불필요한 연산을 줄이는 Group Reduced TT-Gather and Reduce (GRT-GnR) 연산을 제안한다. 실험을 통해 기존 TT-GnR 연산에 비해 latency가 41% 감소한다.
자동화 팩트체킹을 위한 대조학습 방법
http://doi.org/10.5626/JOK.2023.50.8.680
최근 온라인 오정보 확산이 증가하면서 실시간 판단이 가능한 자동화 팩트체킹의 중요성이 강조되고 있다. 이 연구는 한국어 기반의 자동화 팩트체킹을 위한 대조학습 기술을 제안한다. 제안 방법은 주어진 주장의 진위 여부를 판단할 수 있도록 하는 근거 문장과 유사한 문장을 긍정 샘플로 사용한다. 성능 평가 실험을 통해 제안 방법이 사전학습 언어모델 미세조정, SimCSE 등 기존 방법에 비해 주어진 주장의 근거 문장을 찾는 문장 선택 단계에 있어 효과적임을 보였다. 이 연구는 자동화 팩트체킹을 위한 대조학습 기술의 가능성을 보인다.
논증 구조 정보를 통합한 심층 신경망 기반 에세이 특성 자동 평가 모델
http://doi.org/10.5626/JOK.2023.50.8.662
에세이 자동 평가는 모델이 주어진 에세이를 읽고 자동으로 평가하는 작업이다. 본 논문에서는 효과적인 에세이 자동 평가 모델을 위해 Argument Mining 작업을 사용하여 에세이의 논증 구조가 반영된 에세이 표현을 만들고, 에세이의 평가 항목별 표현을 학습하는 방법을 제안한다. 실험을 통해 제안하는 에세이 표현이 사전 학습 언어 모델로 얻은 표현보다 우수함을 입증했으며, 에세이 평가를 위해 평가 항목별로 다른 표현을 학습하는 것이 보다 효과적임을 보였다. 정량 평가 시 최종 제안 모델의 성능은 Quadratic Weighted Kappa(QWK) 기준으로 0.543에서 0.627까지 향상되어 사람의 평가와 상당히 일치하며, 정성 평가 시에도 사람과 비슷한 평가 경향을 보이는 것을 확인했다.
지식 추적 모델의 성능 개선을 위한 양자화된 정답률 임베딩 방법
http://doi.org/10.5626/JOK.2023.50.4.329
지식 추적이란 학습자의 문제풀이 기록을 바탕으로 학습 성취도를 추적하는 문제로, 일련의 문제풀이 기록과 목표 문제가 주어질 때 정답 여부를 예측하는 것을 목표로 한다. 본 연구에서는 문제별 난이도를 고려하지 않은 기존 딥러닝 기반 지식 추적 모델이 쉬운 난도의 문제를 틀리거나 어려운 난도의 문제를 맞히는 학습자를 잘 학습하지 못하는 문제를 해결하고자 한다. 이에 각 문제의 정답률을 바탕으로 학습자의 답변 정보를 양자화는 방식을 제안함으로써 문제의 난이도와 학습자의 답변을 함께 학습하도록 유도하여 성능을 개선한다. 결과적으로 본 연구에서는 정답률이 높은 음성 샘플과 정답률이 낮은 양성 샘플에 대하여 모델이 효과적으로 분별할 수 있는 방법을 제안한다. 이를 위해 잠재 공간상에서의 해당 샘플
들에 대한 임베딩 표현의 차이를 최대화할 수 있는 sinusoidal positional encoding 방법을 도입한다. 실험 결과, 제안 방법을 적용하였을 때 기존 방법 대비 AUC 값이 목표 구간에서 최대 17.89%까지 향상되는 것을 확인하였다.
CoEM: 청각-시각 잠재 표현형을 위한 대조적 임베딩 변환자
http://doi.org/10.5626/JOK.2023.50.1.80
인간의 지각은 청각-시각 정보를 연관 지어 청각 정보로부터 시각 정보를 연상할 수 있고 그 역도 가능한다. 이러한 능력은 청각-시각 정보가 관련되어 있는 상황을 경험하며 자연스럽게 획득할 수 있지만, 두 유형의 정보가 충분히 결합된 영상 데이터는 각 장면의 맥락에 따라 두 가지 레이블을 동시에 만들어주어야 하므로 데이터셋을 만들기 어렵다. 본 논문에서는 같은 카테고리에 대해 한 가지 유형에 대한 임베딩에서 다른 유형으로 변환(mapping)할 수 있는 Contrastive Embedding Mapper (CoEM)을 제안한다. 청각-시각 정보를 쌍으로 짝지을 필요 없이 CoEM은 카테고리에 따라 변환된 임베딩을 대조하는 방식으로 학습한다. 우리는 청각과 시각 데이터셋에 대한 CoEM의 효력을 확인하기 위해 20가지의 카테고리에 대해 실험했다. 실험에서 CoEM에 의해 변환되어 연결된 임베딩들은 다른 도메인에서의 검색 성능의 경우 이웃하는 기준점이 충분한 경우(20개) 약 90%의 성능을 보였다. 또한, 연결된 도메인에서의 데이터 재 생성이 가능함을 확인했다.