대화 요약 생성을 위한 한국어 방송 대본 데이터셋의 구축 및 검증 


51권  4호, pp. 311-325, 4월  2024
10.5626/JOK.2024.51.4.311


PDF

  요약

대화 요약은 다중 발화자와 발화문으로 이루어진 멀티턴 형식의 문서에 대해 핵심 내용을 추출하거나 생성하는 태스크이다. 대화 요약 모델은 추천, 대화 시스템 등에 콘텐츠, 서비스 기록에 대한 분석을 제공하는데 유용하다. 본 논문에서는 생성 기반 대화 요약을 위한 데이터셋을 제안한다. 이를 위해 국내 방송사의 대용량 콘텐츠로부터 원천 데이터를 수집하고, 주석자가 수작업으로 주석 하였다. 구축된 데이터셋 규모는 6개 카테고리에 대해 약 100,000건이며, 요약문은 단문장, 세문장, 2할문장으로 구분되어 주석 되었다. 본 논문에서는 데이터의 특성을 내재화하고 통제할 수 있도록 대화 요약 주석 가이드를 제안한다. 또한 모델 적합성 검증에 사용될 모델 구조의 선정 방식을 제시함으로써, 데이터 특성을 고려한 모델 개선 방향에 대한 통찰력을 제공한다. 실험을 통해 구축된 데이터의 여러 특성을 조명하고, 후속 연구를 위한 기준 성능을 제시한다. 데이터와 베이스라인 모델은 aihub.or.kr에 배포 되었다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

B. Kim, J. Kim, S. Choi, H. Jeon, H. Jun, H. Jung, J. Jang, "KMSS: Korean Media Script Dataset for Dialogue Summarization," Journal of KIISE, JOK, vol. 51, no. 4, pp. 311-325, 2024. DOI: 10.5626/JOK.2024.51.4.311.


[ACM Style]

Bong-Su Kim, Ji-Yoon Kim, Seung-ho Choi, Hyun-Kyu Jeon, Hye-Jin Jun, Hye-In Jung, and Jung-Hoon Jang. 2024. KMSS: Korean Media Script Dataset for Dialogue Summarization. Journal of KIISE, JOK, 51, 4, (2024), 311-325. DOI: 10.5626/JOK.2024.51.4.311.


[KCI Style]

김봉수, 김지윤, 최승호, 전현규, 전혜진, 정혜인, 장정훈, "대화 요약 생성을 위한 한국어 방송 대본 데이터셋의 구축 및 검증," 한국정보과학회 논문지, 제51권, 제4호, 311~325쪽, 2024. DOI: 10.5626/JOK.2024.51.4.311.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr