디지털 라이브러리[ 검색결과 ]
단일 토큰 표현을 활용한 효율적인 거대 언어 모델 기반 문서 재순위화
http://doi.org/10.5626/JOK.2025.52.5.395
정보 검색 시스템에서 문서 재순위화는 주어진 문서 후보에서 질의와의 적합도(Relevance)를 평가하여 문서의 순위를 재정렬(Reranking)하는 것을 목표로 한다. 최근 거대 언어 모델(Language language models, LLMs)의 폭넓은 자연어 이해 능력을 활용하여 문서의 재순위화 정확도를 획기적으로 개선하였다. 그러나 거대 언어 모델을 활용한 기존 연구들은 재순위화의 정확도 개선에 주로 초점을 두고 있으며, 입력 길이가 지나치게 길어지거나, 반복적인 추론을 요구함에 따라 발생하는 효율성 저하 문제를 간과하였다. 본 연구에서는 기존 모델의 문제점을 해결하기 위해 ListT5++ 모델을 제안한다. 제안 모델은 효율성 개선을 위해서 질의와 단락 간의 관련성을 단일 토큰 임베딩으로 표현하는 방법을 도입하고, 이를 활용하여 디코딩 과정을 최소화한 단일 단계 디코딩 전략을 활용한다. 이를 통해 거대 언어 모델 기반 문서 재순위화의 효율성을 크게 개선한다. 실험 결과, 제안 모델인 ListT5++는 기존 방식과 동일한 수준의 정확도를 유지하는 반면에 추론 지연 시간을 기존 모델 대비 29.4배 단축하였다. 특히, ListT5++은 디코딩 과정에서 입력 문서의 순서에 영향을 받지 않고 문서와 질의의 적합도를 학습함으로써, 강건한 특성을 보이는 장점이 있다.
피드백 강화학습을 통한 검색 모델 개선
http://doi.org/10.5626/JOK.2024.51.10.900
오픈 도메인 질의응답 작업은 검색을 통해 단서를 얻고 문제를 해결하는 과정이다. 이러한 작 업에서 검색 모델이 적절한 단서를 제공하는 것은 매우 중요하며, 이는 최종 성능에 직접적인 영향을 미친 다. 또한, 정보 검색은 일상 생활에서도 빈번히 사용되는 중요한 기능이다. 본 논문에서는 이러한 문제의 중요성을 인식하고, 검색 모델의 성능 향상을 목표로 한다. 최근 디코더 모델에서 Reinforcement learning from human feedback(RLHF)을 통해 출력을 조정하는 방식이 자주 사용되고 있는 것처럼, 본 연구에서 는 강화학습을 활용하여 검색 모델을 강화하고자 한다. 구체적으로, 답변 모델의 손실과 검색 문서와 정답 문서 간의 유사도라는 두 가지 보상을 정의하고, 이를 바탕으로 강화학습을 적용하여 검색 모델의 문서 확 률 분포에서 1위 문서의 확률 점수를 조정한다. 이러한 방법을 통해 강화학습 방법의 일반성과 이를 통한 추가적인 성능 향상을 확인한다.
질의응답 시스템에서 처음 보는 단어의 역문헌빈도 기반 단어 임베딩 기법
질의응답 시스템은 사용자의 질문에 대한 답을 찾아주는 시스템으로, 기존의 검색엔진이 사용자의 질의에 대해 관련된 문서의 링크만을 찾아주는 반면 질문에 대한 최종적인 답을 찾아준다는 차이점이 있다. 특정 분야에 국한되지 않고 다양한 질문을 처리해주는 오픈 도메인 질의응답 시스템에 필요한 연구들이 최근 자연어 처리, 인공지능, 데이터 마이닝 등 학계의 다양한 분야들에서 뜨거운 관심을 받고있다. 하지만 관련 연구에서는 학습 데이터에는 없었던 단어들이 질문에 대한 정확한 답과 유사한 오답을 구별해내는데 결정적인 역할을 할 수 있음에도, 이러한 처음 보는 단어들을 모두 단일 토큰으로 치환해버리는 문제가 있다. 본 논문에서는 문맥 정보를 통해 이러한 모르는 단어에 대한 벡터를 계산하는 방법을 제안한다. 그리고 역문헌빈도 가중치를 활용하여 문맥정보를 더 효율적으로 처리하는 모델을 제안한다. 또한 풍부한 실험을 통해 질의응답 시스템의 모델 학습 속도 및 정확성이 기존 연구에 비해 향상됨을 확인하였다.