검색 : [ author: 장두성 ] (2)

피드백 강화학습을 통한 검색 모델 개선

서민택, 임준호, 김태형, 류휘정, 장두성, 나승훈

http://doi.org/10.5626/JOK.2024.51.10.900

오픈 도메인 질의응답 작업은 검색을 통해 단서를 얻고 문제를 해결하는 과정이다. 이러한 작 업에서 검색 모델이 적절한 단서를 제공하는 것은 매우 중요하며, 이는 최종 성능에 직접적인 영향을 미친 다. 또한, 정보 검색은 일상 생활에서도 빈번히 사용되는 중요한 기능이다. 본 논문에서는 이러한 문제의 중요성을 인식하고, 검색 모델의 성능 향상을 목표로 한다. 최근 디코더 모델에서 Reinforcement learning from human feedback(RLHF)을 통해 출력을 조정하는 방식이 자주 사용되고 있는 것처럼, 본 연구에서 는 강화학습을 활용하여 검색 모델을 강화하고자 한다. 구체적으로, 답변 모델의 손실과 검색 문서와 정답 문서 간의 유사도라는 두 가지 보상을 정의하고, 이를 바탕으로 강화학습을 적용하여 검색 모델의 문서 확 률 분포에서 1위 문서의 확률 점수를 조정한다. 이러한 방법을 통해 강화학습 방법의 일반성과 이를 통한 추가적인 성능 향상을 확인한다.

PrefixLM에 기반한 한국어 텍스트 요약

이건희, 나승훈, 임준호, 김태형, 장두성

http://doi.org/10.5626/JOK.2022.49.6.475

본 논문에서는 거대 언어 모델 중 하나인 T5의 인코더-디코더 구조 대비 절반의 크기를 가지는 PrefixLM 구조의 한국어 모델을 학습하여 성능을 확인한다. PrefixLM 모델은 입력과 출력 시퀀스가 단일 시퀀스로 연결되어 트랜스포머 블록에 함께 입력된다. 이때 어텐션 내부 연산 시 사용되는 어텐션 마스크의 변형을 통해 단일 트랜스포머 블록에서 입력 시퀀스 부분은 양방향 어텐션, 출력 시퀀스 부분은 단방향 어텐션이 이루어지도록 조정된다. 이를 통해 인코더와 디코더 역할을 한 레이어에서 수행할 수 있게 된다. 소규모 데이터로 한국어 모델을 여러 방식으로 학습한다. 자연어 처리에서 중요한 태스크 중 하나인 텍스트 생성 요약 태스크에서 기반 모델, 위치 인코딩 방식 등에 따른 성능 차이를 확인한다. BART, T5와 비교하여 각각 2.17, 2.78점의 성능 향상을 보여 PrefixLM 구조가 한국어에서도 충분히 유효함을 보인다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr