디지털 라이브러리[ 검색결과 ]
단일 토큰 표현을 활용한 효율적인 거대 언어 모델 기반 문서 재순위화
http://doi.org/10.5626/JOK.2025.52.5.395
정보 검색 시스템에서 문서 재순위화는 주어진 문서 후보에서 질의와의 적합도(Relevance)를 평가하여 문서의 순위를 재정렬(Reranking)하는 것을 목표로 한다. 최근 거대 언어 모델(Language language models, LLMs)의 폭넓은 자연어 이해 능력을 활용하여 문서의 재순위화 정확도를 획기적으로 개선하였다. 그러나 거대 언어 모델을 활용한 기존 연구들은 재순위화의 정확도 개선에 주로 초점을 두고 있으며, 입력 길이가 지나치게 길어지거나, 반복적인 추론을 요구함에 따라 발생하는 효율성 저하 문제를 간과하였다. 본 연구에서는 기존 모델의 문제점을 해결하기 위해 ListT5++ 모델을 제안한다. 제안 모델은 효율성 개선을 위해서 질의와 단락 간의 관련성을 단일 토큰 임베딩으로 표현하는 방법을 도입하고, 이를 활용하여 디코딩 과정을 최소화한 단일 단계 디코딩 전략을 활용한다. 이를 통해 거대 언어 모델 기반 문서 재순위화의 효율성을 크게 개선한다. 실험 결과, 제안 모델인 ListT5++는 기존 방식과 동일한 수준의 정확도를 유지하는 반면에 추론 지연 시간을 기존 모델 대비 29.4배 단축하였다. 특히, ListT5++은 디코딩 과정에서 입력 문서의 순서에 영향을 받지 않고 문서와 질의의 적합도를 학습함으로써, 강건한 특성을 보이는 장점이 있다.
멀티모달 그래프-SMILES 표현을 통한 거대 언어 모델에서의 분자 이해 향상
http://doi.org/10.5626/JOK.2025.52.5.379
최근 거대 언어 모델의 발전은 다양한 과업에서 뛰어난 성과를 보이며, 특히 멀티모달로 확장하는 연구도 활발히 진행되고 있다. 특히 BLIP-2는 Q-Former를 통해 이미지와 문자를 효율적으로 정렬하여 성능을 높였으며, 멀티모달 데이터로 사전 학습되어 고정된 이미지 인코더가 이를 지원한다. 이러한 발전에 영감을 받아 MolCA 모델은 분자 분야에 BLIP-2를 확장하여 성능을 높였지만, 그래프 인코더는 단일모달 데이터로 사전 학습되어 모델 학습 중 갱신이 필요한 한계가 있다. 따라서 본 논문에서는 이를 멀티모달 데이터로 사전 학습된 그래프 인코더로 대체하고 고정하는 방안을 제시한다. 실험 결과, 멀티모달 데이터로 사전 학습된 그래프 인코더를 사용할 때 성능이 대체로 향상되었으며, 단일모달 데이터로 사전 학습된 그래프 인코더는 갱신할 때 성능이 높은 것에 비해 멀티모달 데이터로 사전 학습된 그래프 인코더는 갱신하지 않을 때 모든 지표에서 성능이 더 좋은 것을 확인할 수 있었다.
지식 추적 모델의 성능 개선을 위한 양자화된 정답률 임베딩 방법
http://doi.org/10.5626/JOK.2023.50.4.329
지식 추적이란 학습자의 문제풀이 기록을 바탕으로 학습 성취도를 추적하는 문제로, 일련의 문제풀이 기록과 목표 문제가 주어질 때 정답 여부를 예측하는 것을 목표로 한다. 본 연구에서는 문제별 난이도를 고려하지 않은 기존 딥러닝 기반 지식 추적 모델이 쉬운 난도의 문제를 틀리거나 어려운 난도의 문제를 맞히는 학습자를 잘 학습하지 못하는 문제를 해결하고자 한다. 이에 각 문제의 정답률을 바탕으로 학습자의 답변 정보를 양자화는 방식을 제안함으로써 문제의 난이도와 학습자의 답변을 함께 학습하도록 유도하여 성능을 개선한다. 결과적으로 본 연구에서는 정답률이 높은 음성 샘플과 정답률이 낮은 양성 샘플에 대하여 모델이 효과적으로 분별할 수 있는 방법을 제안한다. 이를 위해 잠재 공간상에서의 해당 샘플
들에 대한 임베딩 표현의 차이를 최대화할 수 있는 sinusoidal positional encoding 방법을 도입한다. 실험 결과, 제안 방법을 적용하였을 때 기존 방법 대비 AUC 값이 목표 구간에서 최대 17.89%까지 향상되는 것을 확인하였다.
기계 독해 성능 개선을 위한 데이터 증강 기법
http://doi.org/10.5626/JOK.2021.48.12.1298
기계 독해(Machine Reading Comprehension)란 컴퓨터가 주어진 텍스트의 의미를 이해 및 이를 평가하는 방법으로, 자연어 이해를 위한 중요한 기술 중 하나이다. 주어진 글에 대해서 질의가 주어졌을 때, 이에 대한 올바른 응답을 찾는 질의-응답이 가장 대표적인 기계 독해 과제이다. 기계 독해 기술은 최근 심층 인공신경망 기반의 자연어 처리 기술의 발달에 따라 획기적인 성능 개선을 보였다. 그럼에도 불구하고, 주어진 데이터가 희소할 때 성능 개선에 어려움이 있을 수 있다. 이를 해결하기 위해 본 논문에서는 단어 단위 및 문장 단위의 텍스트 편집을 통한 데이터 증강 기법을 활용하여 기존 모델의 변경을 최소화하며 성능 개선을 하고자 한다. 즉, 본 연구에서는 영어 질의응답 데이터에서 가장 널리 활용되고 있는 사전 학습된 언어 모델 기반의 기계 독해 모델에 데이터 증강 기법을 적용하여 기존 모델 대비성능이 향상되는 것을 확인하였다.