자연어처리 분야에서의 임베딩 모델 평가 연구 


52권  2호, pp. 141-151, 2월  2025
10.5626/JOK.2025.52.2.141


PDF

  요약

본 논문에서는 자연어처리(NLP) 분야의 주요 과제인 유사 텍스트 분석, 텍스트 분류, 질의 응답, 군집 분석 과제에 임베딩 기술을 적용하고, 그 성능을 평가하였다. 최근, 자연어처리 분야에서는 대규모 언어 모델의 발전과 함께 임베딩 기술이 다양한 응용 분야에서 중요한 역할을 하고 있다. 현재까지 여러 종류의 임베딩 모델이 공개되었고, 본 논문에서는 공개된 여러 임베딩 모델에 대한 성능을 평가했다. 이를 위해, 선정한 각 과제의 중간 과정으로써 임베딩 모델을 통한 벡터 값을 활용하여 각 과제별 임베딩 모델의 성능을 평가한다. 실험 데이터 셋은 공개된 한국어 및 영어 데이터 셋을 활용하였고, NLP 과제는 5가지로 정의하였다. 특히, 다국어, 교차 언어, 긴 문서 검색 등에서 탁월한 성능을 보인 BGE-M3 모델의 성능에 주목했다. 실험 결과, BG3-M3 모델이 3개의 NLP 과제에서 우수한 성능을 보였다. 본 연구의 결과는 최근의 검색 증강 생성(Retrieval-Augmented Generation)에서 유사 문장 또는 유사 문서를 찾기 위해 활용되는 임베딩 모델을 선택하는 데 있어 방향을 제시할 것으로 기대한다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

H. Kang, "Study on the Evaluation of Embedding Models in the Natural Language Processing," Journal of KIISE, JOK, vol. 52, no. 2, pp. 141-151, 2025. DOI: 10.5626/JOK.2025.52.2.141.


[ACM Style]

Hanhoon Kang. 2025. Study on the Evaluation of Embedding Models in the Natural Language Processing. Journal of KIISE, JOK, 52, 2, (2025), 141-151. DOI: 10.5626/JOK.2025.52.2.141.


[KCI Style]

강한훈, "자연어처리 분야에서의 임베딩 모델 평가 연구," 한국정보과학회 논문지, 제52권, 제2호, 141~151쪽, 2025. DOI: 10.5626/JOK.2025.52.2.141.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr