한국어 논문 기반 검색 증강 생성 데이터셋 


53권  3호, pp. 205-216, 3월  2026
10.5626/JOK.2026.53.3.205


PDF

  요약

거대 언어 모델은 일반 도메인 데이터에 기반해 학습되어서 정보 밀도가 높고 전문 용어가 많은 전문 도메인에서 한계를 보인다. 검색 증강 생성은 외부 지식을 참조함으로써 답변의 정확성과 신뢰성을 높이며, 이는 특히 사전학습 데이터가 부족한 전문 도메인에서 더욱 효과적이다. 그러나 한국어 전문 도메인을 대상으로 한 공개 데이터셋은 여전히 부족하므로, 이에 특화된 검색 증강 생성 데이터셋이 요구된다. 본 논문에서는 한국어 검색 증강 생성을 위한 과학·기술 논문 기반의 새로운 한국어 검색 증강 생성 데이터셋을 제안한다. 기존의 문서-질의 기반 데이터를 전처리하여 검색 가능한 코퍼스를 구성하고, 전문 도메인 활용에 적합하도록 핵심 구절 및 핵심 문장을 추출하였다. 또한 구축된 데이터셋에 대해 다각도에서 정량적 품질 평가를 진행하였다. 본 데이터셋은 한국어 검색 증강 생성 시스템에서 과학·기술 논문이라는 전문 도메인 특성을 반영함으로써 검색 증강 생성의 중요한 기반을 제공한다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

J. Han, M. Choi, K. Kim, Y. Ko, "Korean Paper Based Retrieval Augmented Generation Dataset," Journal of KIISE, JOK, vol. 53, no. 3, pp. 205-216, 2026. DOI: 10.5626/JOK.2026.53.3.205.


[ACM Style]

Junho Han, Minjun Choi, Keunha Kim, and Youngjoong Ko. 2026. Korean Paper Based Retrieval Augmented Generation Dataset. Journal of KIISE, JOK, 53, 3, (2026), 205-216. DOI: 10.5626/JOK.2026.53.3.205.


[KCI Style]

한준호, 최민준, 김근하, 고영중, "한국어 논문 기반 검색 증강 생성 데이터셋," 한국정보과학회 논문지, 제53권, 제3호, 205~216쪽, 2026. DOI: 10.5626/JOK.2026.53.3.205.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr