검색 : [ author: 권준 ] (2)

단일 토큰 표현을 활용한 효율적인 거대 언어 모델 기반 문서 재순위화

나정우, 권준, 최은성, 이종욱

http://doi.org/10.5626/JOK.2025.52.5.395

정보 검색 시스템에서 문서 재순위화는 주어진 문서 후보에서 질의와의 적합도(Relevance)를 평가하여 문서의 순위를 재정렬(Reranking)하는 것을 목표로 한다. 최근 거대 언어 모델(Language language models, LLMs)의 폭넓은 자연어 이해 능력을 활용하여 문서의 재순위화 정확도를 획기적으로 개선하였다. 그러나 거대 언어 모델을 활용한 기존 연구들은 재순위화의 정확도 개선에 주로 초점을 두고 있으며, 입력 길이가 지나치게 길어지거나, 반복적인 추론을 요구함에 따라 발생하는 효율성 저하 문제를 간과하였다. 본 연구에서는 기존 모델의 문제점을 해결하기 위해 ListT5++ 모델을 제안한다. 제안 모델은 효율성 개선을 위해서 질의와 단락 간의 관련성을 단일 토큰 임베딩으로 표현하는 방법을 도입하고, 이를 활용하여 디코딩 과정을 최소화한 단일 단계 디코딩 전략을 활용한다. 이를 통해 거대 언어 모델 기반 문서 재순위화의 효율성을 크게 개선한다. 실험 결과, 제안 모델인 ListT5++는 기존 방식과 동일한 수준의 정확도를 유지하는 반면에 추론 지연 시간을 기존 모델 대비 29.4배 단축하였다. 특히, ListT5++은 디코딩 과정에서 입력 문서의 순서에 영향을 받지 않고 문서와 질의의 적합도를 학습함으로써, 강건한 특성을 보이는 장점이 있다.

이진 분류 데이터 세트 내 편향 제거를 위한 다차원 서브셋 기반 시스템

변경수, 김구, 권준호

http://doi.org/10.5626/JOK.2023.50.5.383

인공지능 기술이 발전함에 따라 인공지능 관련 공정성 문제가 주목받고 있다. 이에 따라 관련 연구가 많이 진행되었으나 모델 및 학습 방법 연구가 주를 이루고 있으며 근본적인 원인인 학습에 쓰이는 데이터 내에 존재하는 편향을 제거하기 위한 연구는 아직 미흡하다. 따라서 이 논문에서는 데이터 내에 존재하는 편향을 레이블 편향과 서브 그룹 편향으로 구분하고 편향을 제거함으로써 공정성이 향상된 데이터셋을 생성하는 시스템을 설계 및 구현한다. 제안하는 시스템은 서브셋 생성 단계와 편향 제거 단계로 구성된다. 먼저 서브셋 생성기는 기존 데이터 세트 내 각 값의 조합이 형성하는 고윳값들에 따라 단일 값만을 가지는 서브셋으로 나눈다. 이후 검증 데이터셋을 기반으로 기존 데이터셋을 검증하여 얻은 공정성 지표값을 기준으로 우세그룹과 약세그룹으로 서브셋을 구분한다. 다음으로 편향 제거기는 각 서브셋의 우세그룹을 대상으로 순차 추출 및 검증을 병행하여 약세그룹과의 차이를 줄이는 과정을 반복하여 서브셋에서 나타난 편향을 줄인다. 이후 편향이 제거된 서브셋들을 병합하며 공정한 데이터셋을 반환한다. 검증에 사용된 공정성 지표는 F1 score와 균등 확률(equalized odd)을 사용한다. 실제 Census income 데이터, COMPAS 데이터 및 Bank marketing 데이터를 검증 데이터로 사용한 포괄적인 실험을 통해 제안된 시스템이 더 나은 공정성 개선율을 산출하고 대부분의 기계 학습 알고리즘에서 더 높은 정확성을 제공함으로써 기존 기술을 능가한다는 것을 보여준다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr