검색 : [ keyword: 검색 증강 생성 ] (3)

대규모 언어 모델에 기반한 질문 재작성을 활용한 검색증강 생성 시스템

한민수, 홍석영, 구명완

http://doi.org/10.5626/JOK.2025.52.6.474

본 논문에서는 미세 조정 학습 없이 전문 지식이 요구되는 분야에서 효과적으로 활용할 수 있는 검색기 구조를 제안한다. 이 과정에서 높은 정확도를 위해 대규모 언어모델을 활용해 질문과 유사한 예시를 생성하여 기존 검색기에 비해 유사도를 향상시키는 쿼리 리라이팅 검색기 방법론을 제안한다. 해당 방법론은 자동 평가와 전문가의 질적 평가에서 모두 우수한 성능을 거두었으며, 예시를 통해 검색기의 결과에 설명가능성을 제공한다. 또한 해당 방법론을 적용하는 과정에서 활용되는 프롬프트를 제안함에 다양한 전문 지식이 필요한 분야에서의 활용가능성을 제시한다. 이에 더하여 쿼리 리라이팅 검색기에서 선별한 3개의 검색 결과 중 정답 문서 1개를 선별하는 Top1 검색기를 추가한 파이프라인 방법론을 제안한다. 이는 대규모 언어 모델에 불필요한 문서가 입력되어 발생하는 환각 문제를 예방하는 것을 목표로 한다.

관련성 게이트를 활용한 FiD 시스템의 패시지 선별 및 답변 생성 성능 향상

최승호, 박시현, 김민상, 박찬솔, 왕준호, 김지윤, 김봉수

http://doi.org/10.5626/JOK.2025.52.5.385

본 논문에서는 오픈 도메인 질의응답 시스템에서 FiD(Fusion-in-Decoder) 모델의 성능을 향상시키기 위한 새로운 접근 방식을 제안한다. FiD 모델은 여러 패시지를 독립적으로 인코딩한 후, 디코딩 단계에서 이를 결합하여 답변을 생성하는 구조를 갖고 있다. 그러나 이 방식은 불필요한 정보를 포함한 패시지를 필터링하지 못해 디코더에 과도한 부담을 주는 단점이 있다. 이를 해결하기 위해, 본 논문에서는 LSTM(Long Short-Term Memory)의 망각 게이트를 응용한 관련성 게이트(Relevance Gate)를 도입하였다. 이 게이트는 각 패시지의 관련성을 병렬적으로 평가하여 디코더에 전달되는 정보를 선별하며, 이를 통해 답변 생성의 정확성과 효율성을 크게 향상시킨다. 또한, 시그모이드 함수 대신 오픈 도메인 질의응답 시스템에 적합한 새로운 활성 함수를 적용하여 모델의 안정성을 확보하였다.

자연어처리 분야에서의 임베딩 모델 평가 연구

강한훈

http://doi.org/10.5626/JOK.2025.52.2.141

본 논문에서는 자연어처리(NLP) 분야의 주요 과제인 유사 텍스트 분석, 텍스트 분류, 질의 응답, 군집 분석 과제에 임베딩 기술을 적용하고, 그 성능을 평가하였다. 최근, 자연어처리 분야에서는 대규모 언어 모델의 발전과 함께 임베딩 기술이 다양한 응용 분야에서 중요한 역할을 하고 있다. 현재까지 여러 종류의 임베딩 모델이 공개되었고, 본 논문에서는 공개된 여러 임베딩 모델에 대한 성능을 평가했다. 이를 위해, 선정한 각 과제의 중간 과정으로써 임베딩 모델을 통한 벡터 값을 활용하여 각 과제별 임베딩 모델의 성능을 평가한다. 실험 데이터 셋은 공개된 한국어 및 영어 데이터 셋을 활용하였고, NLP 과제는 5가지로 정의하였다. 특히, 다국어, 교차 언어, 긴 문서 검색 등에서 탁월한 성능을 보인 BGE-M3 모델의 성능에 주목했다. 실험 결과, BG3-M3 모델이 3개의 NLP 과제에서 우수한 성능을 보였다. 본 연구의 결과는 최근의 검색 증강 생성(Retrieval-Augmented Generation)에서 유사 문장 또는 유사 문서를 찾기 위해 활용되는 임베딩 모델을 선택하는 데 있어 방향을 제시할 것으로 기대한다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr