검색 : [ author: Min-Taek Seo ] (1)

피드백 강화학습을 통한 검색 모델 개선

서민택, 임준호, 김태형, 류휘정, 장두성, 나승훈

http://doi.org/10.5626/JOK.2024.51.10.900

오픈 도메인 질의응답 작업은 검색을 통해 단서를 얻고 문제를 해결하는 과정이다. 이러한 작 업에서 검색 모델이 적절한 단서를 제공하는 것은 매우 중요하며, 이는 최종 성능에 직접적인 영향을 미친 다. 또한, 정보 검색은 일상 생활에서도 빈번히 사용되는 중요한 기능이다. 본 논문에서는 이러한 문제의 중요성을 인식하고, 검색 모델의 성능 향상을 목표로 한다. 최근 디코더 모델에서 Reinforcement learning from human feedback(RLHF)을 통해 출력을 조정하는 방식이 자주 사용되고 있는 것처럼, 본 연구에서 는 강화학습을 활용하여 검색 모델을 강화하고자 한다. 구체적으로, 답변 모델의 손실과 검색 문서와 정답 문서 간의 유사도라는 두 가지 보상을 정의하고, 이를 바탕으로 강화학습을 적용하여 검색 모델의 문서 확 률 분포에서 1위 문서의 확률 점수를 조정한다. 이러한 방법을 통해 강화학습 방법의 일반성과 이를 통한 추가적인 성능 향상을 확인한다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr