검색 : [ keyword: Information Retrieval ] (10)

단일 토큰 표현을 활용한 효율적인 거대 언어 모델 기반 문서 재순위화

나정우, 권준, 최은성, 이종욱

http://doi.org/10.5626/JOK.2025.52.5.395

정보 검색 시스템에서 문서 재순위화는 주어진 문서 후보에서 질의와의 적합도(Relevance)를 평가하여 문서의 순위를 재정렬(Reranking)하는 것을 목표로 한다. 최근 거대 언어 모델(Language language models, LLMs)의 폭넓은 자연어 이해 능력을 활용하여 문서의 재순위화 정확도를 획기적으로 개선하였다. 그러나 거대 언어 모델을 활용한 기존 연구들은 재순위화의 정확도 개선에 주로 초점을 두고 있으며, 입력 길이가 지나치게 길어지거나, 반복적인 추론을 요구함에 따라 발생하는 효율성 저하 문제를 간과하였다. 본 연구에서는 기존 모델의 문제점을 해결하기 위해 ListT5++ 모델을 제안한다. 제안 모델은 효율성 개선을 위해서 질의와 단락 간의 관련성을 단일 토큰 임베딩으로 표현하는 방법을 도입하고, 이를 활용하여 디코딩 과정을 최소화한 단일 단계 디코딩 전략을 활용한다. 이를 통해 거대 언어 모델 기반 문서 재순위화의 효율성을 크게 개선한다. 실험 결과, 제안 모델인 ListT5++는 기존 방식과 동일한 수준의 정확도를 유지하는 반면에 추론 지연 시간을 기존 모델 대비 29.4배 단축하였다. 특히, ListT5++은 디코딩 과정에서 입력 문서의 순서에 영향을 받지 않고 문서와 질의의 적합도를 학습함으로써, 강건한 특성을 보이는 장점이 있다.

피드백 강화학습을 통한 검색 모델 개선

서민택, 임준호, 김태형, 류휘정, 장두성, 나승훈

http://doi.org/10.5626/JOK.2024.51.10.900

오픈 도메인 질의응답 작업은 검색을 통해 단서를 얻고 문제를 해결하는 과정이다. 이러한 작 업에서 검색 모델이 적절한 단서를 제공하는 것은 매우 중요하며, 이는 최종 성능에 직접적인 영향을 미친 다. 또한, 정보 검색은 일상 생활에서도 빈번히 사용되는 중요한 기능이다. 본 논문에서는 이러한 문제의 중요성을 인식하고, 검색 모델의 성능 향상을 목표로 한다. 최근 디코더 모델에서 Reinforcement learning from human feedback(RLHF)을 통해 출력을 조정하는 방식이 자주 사용되고 있는 것처럼, 본 연구에서 는 강화학습을 활용하여 검색 모델을 강화하고자 한다. 구체적으로, 답변 모델의 손실과 검색 문서와 정답 문서 간의 유사도라는 두 가지 보상을 정의하고, 이를 바탕으로 강화학습을 적용하여 검색 모델의 문서 확 률 분포에서 1위 문서의 확률 점수를 조정한다. 이러한 방법을 통해 강화학습 방법의 일반성과 이를 통한 추가적인 성능 향상을 확인한다.

한국어 버그리포트에서 번역을 활용한 정보검색기반 버그 추적

김미수

http://doi.org/10.5626/JOK.2024.51.9.827

정보검색기반 버그 추적 기술은 버그리포트를 쿼리로 사용하여 결함이 있는 소스 파일을 자동 으로 찾아주는 기술로, 개발자들이 버그 위치를 찾는데 소모되는 시간을 크게 단축시킬 수 있다. 이 기술 의 핵심은 버그리포트와 소스 파일 텍스트 간 유사도를 계산하는 것이다. 그러나 한국어로 작성된 버그리 포트의 경우, 영어를 기반으로 하는 소스 코드와의 단어 매칭이 어렵기 때문에, 텍스트 유사도가 효과적이 지 않을 수 있다. 본 연구에서는 국내 개발자들이 이 기술을 효과적으로 사용할 수 있도록, 번역을 활용한 한국어 버그리포트를 위한 정보검색기반 버그 추적 기술을 제안한다. 이를 위해 다양한 번역기 결과를 종 합적으로 활용하는 soft voting 방식을 적용한다. 제안 기법의 성능 검증을 위해, 269개의 한국어 버그리 포트를 수집하고, 세 종류의 번역기와 두 종류의 순위 모델을 통해 실험을 수행했다. 그 결과, 제안 기법이 기존 버그리포트 대비 결함 추적 성능을 44% 개선시킴을 확인했다.

사전 학습된 신경망 언어모델 기반 다중 임베딩 조합을 통한 소재 및 화학분야 개체명 인식 성능 비교 연구

이명훈, 신현호, 전홍우, 이재민, 하태현, 최성필

http://doi.org/10.5626/JOK.2021.48.6.696

최근 소재 및 화학분야의 급속한 발전으로 해당 분야 관련 학술 문헌이 기하급수적으로 늘어나고 있다. 이에 기존의 축적된 방대한 데이터에서 유의미한 정보를 추출하기 위한 연구들이 진행되고 있으며, 그 방법론 중 하나로 개체명 인식이 활용되고 있다. 소재 및 화학분야 개체명 인식은 학술 문헌에서 소재, 물성 정보, 실험 조건 등과 같은 정형화된 개체를 추출하고, 그 종류를 분류하는 작업이다. 본 논문에서는 신경망 언어 모델의 사전 훈련 없이 기존의 공개된 언어 모델을 임베딩 조합과 Bi-direction LSTM-CRF 모델을 사용하여 소재 및 화학분야 개체명 인식을 연구하였다. 그 결과 가장 성능이 좋은 조합을 도출하였고 그 이유를 분석하였다. 추가적으로 사전 학습 언어 모델 자체를 개체명 인식 모델로 사용하여 미세조정을 통해 성능을 비교하였다. 이를 통해 기존의 공개된 사전 학습 언어 모델들로 구성한 다중 임베딩 조합이 소재 및 화학분야 개체명 인식에서 유의미한 결과를 도출할 수 있음을 증명하였다.

뉴럴-심볼릭 순위화 모델 기반 2단계 단락 재순위화 모델

배용진, 김현, 임준호, 김현기, 이공주

http://doi.org/10.5626/JOK.2021.48.5.501

자연어 질의응답 시스템과 관련한 이전의 연구들은 주어진 질문과 단락으로부터 정확한 정답을 추출하는 문제에 초점을 맞추고 있다. 그러나, 기계독해에서 오픈 도메인 질의응답으로 문제를 확장하였을 때, 정답이 포함된 단락을 잘 찾는 것이 기계독해 못지않은 중요한 요소이다. DrQA에서는 초기 검색 단계를 포함하여 질의응답을 하였을 때 Exact Match@Top1 성능이 69.5%에서 27.1%로 하락했다고 평가하였다. 본 논문에서는 질의응답 시스템 성능 향상을 위해 2단계 단락 재순위화 모델을 제안한다. 2단계 단락 재순위화 모델은 심볼릭 순위화 모델과 뉴럴 순위화 모델의 결과를 통합하여 다시 재순위화하는 모델이다. 심볼릭 순위화 모델은 CatBoost 알고리즘과 질문과 단락 간의 자질을 기반으로 단락을 순위화 하고, 뉴럴 순위화 모델은 한국어 딥러닝 언어모델(KorBERT)을 사후학습하여 순위화하였다. 2단계 모델은 뉴럴 리그레션 모델에 기반하여 순위화하였다. 본 논문에서는 특징이 다른 순위화 모델을 결합하여 성능을 극대화하였고, 최종적으로 제안한 모델은 1,000건의 질문을 평가하였을 때 MRR 기준 85.8%과 BinaryRecall@Top1기준 82.2%의 성능을 보였고, 각 성능은 베이스라인 모델보다 17.3%(MRR), 22.3%(BR@Top1)이 향상되었다.

다중 작업 학습을 통한 문장 유사도 기반 단락 재순위화 방법

장영진, 이현구, 왕지현, 이충희, 김학수

http://doi.org/10.5626/JOK.2020.47.4.416

기계독해 시스템은 컴퓨터가 주어진 단락을 이해하고 질문에 대한 답변을 하는 질의응답 시스템이다. 최근 심층 신경망의 발전으로 기계독해 시스템의 연구가 활발해지면서 주어진 문서가 아닌 검색모델의 결과에서 정답을 찾는 연구(오픈 도메인 기계독해 시스템)가 진행되고 있다. 하지만 오픈 기계독해 시스템은 검색 모델이 정답을 포함하는 단락을 검색해오지 못할 경우, 질문에 대한 답을 할 수 없다. 즉, 오픈 도메인 기계독해 시스템의 성능은 검색 모델의 성능에 종속된다. 따라서 오픈 도메인 기계독해 시스템이 높은 성능을 기록하기 위해서는 높은 성능의 검색 모델이 요구된다. 검색 모델의 성능을 높이기 위한 기존 연구는 질의 확장과 재순위화 등을 통해 연구되었으며, 본 논문에서는 심층 신경망을 이용한 재순위화 방법을 제안한다. 제안 모델은 다중 작업 학습 기반 문장 유사도 측정을 통해 검색 결과(단락)를 재순위화하고, 자체 구축한 58,980 쌍의 기계독해 데이터의 실험 결과로 기존 검색 모델 성능과 비교하여 약 8%p(Precision 1 기준)의 성능 향상을 보였다.

멀티헤드 주의집중 기법과 하이웨이 네트워크를 활용한 생물학 개체명 인식

조민수, 박진욱, 하지환, 박찬희, 박상현

http://doi.org/10.5626/JOK.2019.46.6.544

생물학 개체명 인식이란 생물학 문헌으로부터 질병, 유전자, 단백질과 같은 생물학 개체명을 추출하고 그 종류를 분류하는 작업으로, 생물학 데이터로부터 유의미한 정보를 추출하는데 중요한 역할을 한다. 본 연구에서는 입력 단어의 자질을 자동으로 추출할 수 있는 딥러닝 기반의 Bi-LSTM-CRF 모델을 활용한 개체명 인식 연구를 진행하였다. Multi-head 주의 기제 기법을 적용하여 입력 단어들 간의 관계를 포착하고 관련성이 높은 단어에 주목하여 예측의 성능을 높였다. 또한, 단어 단위 임베딩 벡터 외 문자 단위 임베딩 벡터를 결합하여 입력 임베딩의 표상을 확장하고, 각 표상의 정보 흐름을 학습하기 위해 Highway 네트워크에 적용하였다. 제안하는 모델의 성능을 평가하기 위해 두 개의 영어 생물학 데이터셋으로 비교 실험을 진행하였으며, 그 결과 기존 연구의 모델들보다 향상된 성능을 보였다. 이를 통해 제안하는 방법론이 생물학 개체명 인식 연구에서 효과적인 방법론임을 입증하였다.

정보검색기반 결함위치식별 기술의 성능 향상을 위한 버그리포트 품질 예측

김미수, 안준, 이은석

http://doi.org/10.5626/JOK.2017.44.8.832

버그리포트는 소프트웨어의 유지보수 단계에서 발생한 결함 정보를 담고 있는 문서로서 개발자가 해당 결함을 수정하기 위해 필수적인 정보이다. 이 때 개발자가 버그리포트를 해결하기 위해 결함을 추적하는 시간을 단축시키기 위한 정보검색기반 결함위치식별 기술들이 제안되었다. 그러나 정보검색에 유용하지 못한 내용들로 작성된 낮은 품질의 버그리포트가 등록 될 경우 결함위치식별 성능이 크게 저하된다. 본 논문에서는 낮은 품질의 버그리포트를 선별하기 위한 품질 예측 방법을 제안한다. 이 과정에서 버그리포트의 쿼리로써의 품질 요소를 정의하고, 기계학습을 사용하여 품질을 예측한다. 제안 방법을 오픈소스 프로젝트에 적용하여 기존 품질 예측 기술 대비 평균 6.62% 더 정확하게 예측하였다. 또한 기존 결함위치식별 기술에 제안 예측 기술과 자동 쿼리 재구성 기술을 함께 적용한 경우 결함위치식별 정확도를 1.3% 향상시켜, 제안 품질 예측 기술이 정보검색기반 결함위치식별 기술의 성능 향상을 도울 수 있음을 확인하였다.

질의응답 시스템에서 처음 보는 단어의 역문헌빈도 기반 단어 임베딩 기법

이우인, 송광호, 심규석

http://doi.org/

질의응답 시스템은 사용자의 질문에 대한 답을 찾아주는 시스템으로, 기존의 검색엔진이 사용자의 질의에 대해 관련된 문서의 링크만을 찾아주는 반면 질문에 대한 최종적인 답을 찾아준다는 차이점이 있다. 특정 분야에 국한되지 않고 다양한 질문을 처리해주는 오픈 도메인 질의응답 시스템에 필요한 연구들이 최근 자연어 처리, 인공지능, 데이터 마이닝 등 학계의 다양한 분야들에서 뜨거운 관심을 받고있다. 하지만 관련 연구에서는 학습 데이터에는 없었던 단어들이 질문에 대한 정확한 답과 유사한 오답을 구별해내는데 결정적인 역할을 할 수 있음에도, 이러한 처음 보는 단어들을 모두 단일 토큰으로 치환해버리는 문제가 있다. 본 논문에서는 문맥 정보를 통해 이러한 모르는 단어에 대한 벡터를 계산하는 방법을 제안한다. 그리고 역문헌빈도 가중치를 활용하여 문맥정보를 더 효율적으로 처리하는 모델을 제안한다. 또한 풍부한 실험을 통해 질의응답 시스템의 모델 학습 속도 및 정확성이 기존 연구에 비해 향상됨을 확인하였다.

위키피디아 기반 개체명 사전 반자동 구축 방법

송영길, 정석원, 김학수

http://doi.org/

개체명은 다양한 자연어처리 연구 및 서비스에 중요한 정보로 이용된다. 개체명 인식의 성능을 향상시키기 위한 여러 연구에서 개체명 사전을 이용한 자질이 개체명 인식 성능에 큰 영향을 준다는 것을 보이고 있다. 그러나 개체명 사전을 구축하는 것은 매우 시간 소모적이고, 인력 소모적인 작업이다. 이를 완화하기 위해서 본 논문에서는 개체명 사전을 반자동으로 구축하는 방법을 제안한다. 제안 시스템은 능동학습을 이용하여 위키피디아 분류정보로 구성된 가상 문서를 개체명 범주 당 하나씩 생성한다. 그리고 잘 알려진 정보검색 모델인 BM25를 이용하여 위키피디아 엔트리와 가상문서 사이의 유사도를 계산한다. 마지막으로 유사도를 바탕으로 각 위키피디아 엔트리를 개체명 범주로 분류한다. 서로 다른 3종류의 개체명 범주 집합에서 실험한 결과, 제안 시스템은 매크로 평균 F1-점수 0.9028, 마이크로 평균 F1-점수 0.9554이라는 높은 성능을 보였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr