검색 : [ keyword: summarization ] (25)

거대 언어모델을 활용한 측면 기반 비교 요약

진 현, 송현제

http://doi.org/10.5626/JOK.2025.52.7.579

본 논문은 사용자의 의사 결정을 돕기 위해 두 아이템의 리뷰 셋으로부터 두 아이템을 비교할 수 있는 측면 기반 비교 요약문 생성 방법을 제안한다. 두 아이템의 리뷰가 주어졌을 때, 아이템들이 가진 다양한 측면들을 비교하기 위해 거대 언어모델을 활용하여 각 리뷰에서 주요 측면을 동적으로 생성한다. 각 리뷰에서 추출된 측면으로부터 두 아이템을 비교할 공통된 측면을 도출하기 위해, 두 아이템의 측면 리스트를 병합한다. 리뷰에서 불필요한 정보를 제거하기 위해 아이템 리뷰의 문장들을 가장 유사한 측면으로 분류한 후, 요약 과정을 거쳐 핵심 정보만 남긴다. 다음으로 공통된 측면마다 개별 아이템에 대한 전반적인 내용을 담으면서 동시에 대응하는 아이템과 비교할 수 있도록 거대 언어모델을 활용하여 추상 요약문을 생성한다. 실험에서는 호텔, 전자기기, 가구 도메인에서 사람이 작성한 비교 요약문과 시스템이 생성한 요약을 비교하였으며, 제안한 방법이 기존의 비교 모델보다 우수한 요약 성능을 보였다.

특징 요약을 통한 공기조화 시뮬레이션 데이터의 혼합형 다변량 시계열 군집화 품질 향상

서하린, 서영균

http://doi.org/10.5626/JOK.2025.52.5.424

기존 다변량 시계열 데이터 군집 분석 방법은 정보의 손실을 초래하여 군집화 성능 및 해석 가능성이 저하되는 문제가 있다. 더욱이, 대부분의 기존 기법들은 수치형 변수에 초점을 맞추고 있어, 실-세계에서 흔한 혼합형 다변량 시계열 데이터셋에 적용하기 어렵다. 이러한 문제를 해결하기 위해, 본 논문은 시계열 데이터를 대표적인 특징으로 요약하여 해석 가능성을 높이는 새로운 혼합형 다변량 시계열 데이터 군집 분석 기법을 제안한다. 제안하는 기법은 혼합된 형을 갖는 다변량 시계열 데이터를 군집화하기 위해 특징을 요약한다는 점에서 기존 방법과 근본적으로 다르다. 우리는 두 개의 공기조화 시뮬레이션 데이터셋(MZVAV-1과 MZVAV-2-1)에 대해 세 개의 군집화 평가 지표를 사용하여 제안된 방법을 기존 기법과 비교 평가하였다. 실험 결과 제안한 방법은 MZVAV-1에서 지표-클러스터 개수 조합의 61% 이상, MZVAV-2-1에서 40% 이상의 군집화 품질에서 기존 기법보다 우수한 성능을 보였다. 이러한 결과는 제안한 방법이 혼합형 시계열 데이터를 위한 군집화 성능 및 해석 가능성을 상당히 개선할 수 있음을 확인시켜 준다.

주제 인식 교차 주의를 활용한 대화 요약

민수영, 고영중

http://doi.org/10.5626/JOK.2024.51.11.1011

대화 요약은 일반적인 문서 요약과는 다르게 비형식적, 구어체의 사용이 많고, 대화의 맥락과 흐름 파악, 대화의 주제들에 대한 고려가 필요하다. 본 연구에서는 이러한 대화의 특성을 반영하기 위해 교차 주의 기법에 주제 분포를 인식할 수 있도록 요소를 추가한 주제 인식 교차 주의 기법을 제안한다. 이 주제 인식 교차 주의 기법은 대화와 요약문의 주제 분포를 추출하여 이 주제 분포의 유사도를 BART 모델 디코더 내부의 교차 주의 기법에 적용하여 대화 요약을 진행한다. 본 연구에서 제안하는 주제 인식 교차 주의 기법은 주제 비율을 조정함으로써 주제 분포의 유사도를 기존 교차 주의 기법에 적용되는 정도를 조절할 수 있으며, DialogSum, SAMSum 데이터셋에서의 실험을 통해 대화 요약에 적절함을 확인할 수 있다.

대화 요약 생성을 위한 한국어 방송 대본 데이터셋의 구축 및 검증

김봉수, 김지윤, 최승호, 전현규, 전혜진, 정혜인, 장정훈

http://doi.org/10.5626/JOK.2024.51.4.311

대화 요약은 다중 발화자와 발화문으로 이루어진 멀티턴 형식의 문서에 대해 핵심 내용을 추출하거나 생성하는 태스크이다. 대화 요약 모델은 추천, 대화 시스템 등에 콘텐츠, 서비스 기록에 대한 분석을 제공하는데 유용하다. 본 논문에서는 생성 기반 대화 요약을 위한 데이터셋을 제안한다. 이를 위해 국내 방송사의 대용량 콘텐츠로부터 원천 데이터를 수집하고, 주석자가 수작업으로 주석 하였다. 구축된 데이터셋 규모는 6개 카테고리에 대해 약 100,000건이며, 요약문은 단문장, 세문장, 2할문장으로 구분되어 주석 되었다. 본 논문에서는 데이터의 특성을 내재화하고 통제할 수 있도록 대화 요약 주석 가이드를 제안한다. 또한 모델 적합성 검증에 사용될 모델 구조의 선정 방식을 제시함으로써, 데이터 특성을 고려한 모델 개선 방향에 대한 통찰력을 제공한다. 실험을 통해 구축된 데이터의 여러 특성을 조명하고, 후속 연구를 위한 기준 성능을 제시한다. 데이터와 베이스라인 모델은 aihub.or.kr에 배포 되었다.

한국어 국회 회의록 생성 요약 말뭉치 구축 및 모델 개발

함영균, 강예지, 박서윤, 정용빈, 서현빈, 이이슬, 서혜진, 서샛별, 김한샘

http://doi.org/10.5626/JOK.2024.51.3.218

요약 연구의 주류는 아직 문서를 대상으로 하지만, 최근에는 회의 요약 연구에 대한 관심이 크게 높아지고 있다. 본 연구는 국립국어원 국어 빅데이터 구축 사업의 일환으로 국내에서 아직 연구되지 않은 국회 회의록 생성 요약에 대해 연구를 진행하였으며, 국회 회의록에 대한 생성 요약 데이터셋을 구축하였다. 구축한 데이터셋의 품질을 검증하기 위해 정성적인 인간 평가를 진행하였다. 또한 생성 요약 모델을 통해 구축된 데이터셋에 대한 정량 및 정성적 평가를 진행함으로써 국회 회의록 요약 데이터셋에 대한 평가 및 향후 생성 요약과 회의록 요약의 연구 방향을 모색하였다.

한국어 문서 요약 모델의 성능 향상을 위한 포스트 트레이닝 기법

김소언, 홍성은, 박규민, 홍충선, 박성배

http://doi.org/10.5626/JOK.2023.50.10.882

문서 요약은 긴 문서를 바탕으로 짧은 요약문을 생성하는 태스크로, 최근 트랜스포머 모델 기반의 사전 학습 모델을 사용하는 방식이 높은 효과를 보이고 있다. 하지만 사전 학습과 미세 조정 간의 학습 격차로 인해, 미세 조정이 모델을 최적 상태로 학습시키지 못한다는 것이 증명됨에 따라 사전 학습과 미세 조정 사이에 추가 학습을 진행하는 포스트 트레이닝이 제안되었다. 본 논문에서는 한국어 문서 요약에 최적화된 포스트 트레이닝을 위해 한국어 구조에 대해 학습할 수 있는 한국어 띄어쓰기 방법과 문서요약문 생성에 대한 학습을 위한 첫 번째 문장 마스킹 방법을 제안하였다. 실험을 통해 제안하는 포스트 트레이닝을 사용하였을 때 사용하지 않았을 때보다 성능이 향상됨을 보임으로써 제안하는 포스트 트레이닝 기법이 효과적임을 증명하였다.

Exploring Text Summarization for Fake News Detection

Jie Bian, Seungeon Lee, Karandeep Singh, Meeyoung Cha

http://doi.org/10.5626/JOK.2022.49.11.926

가짜 뉴스 탐지는 방대한 양의 이종 데이터를 빠르게 수집하여 확실한 검증을 요한다. 이 논문은 텍스트 요약 기술이 뉴스의 중요한 정보나 단서를 찾아내어 가짜뉴스 탐지 문제에 기여할 수 있음을 제시한다. 잘 알려진 벤치마크 데이터셋에서 검증해본 결과 주요한 두 가지 텍스트 요약 기법이 - 추출요약 및 추상요약 - 모두 가짜뉴스 탐지 문제 해결에 각기 도움을 줌을 확인할 수 있었다. 더 나아가 방대한 뉴스 데이터로부터 텍스트 요약은 문장, 단어, 문서의 단계에서 주요 정보를 압축함으로써 근거 자료로 활용되는데 있어 모델의 설명 가능성도 보여준다.

감정 역학과 멀티모달 정보 기반의 영화 요약

이명지, 권홍석, 이원기, 이종혁

http://doi.org/10.5626/JOK.2022.49.9.735

자동 영화 요약은 영화의 중요한 장면을 담은 짧은 동영상을 만드는 것을 목적으로 하는 연구 주제이다. 본 연구는 자동 영화 요약을 위해 영화의 3가지 주요 요소인 인물, 줄거리, 동영상 정보를 종합적으로 고려한 요약 모델을 제안한다. 영화 줄거리 상의 주요 사건을 정확하게 식별하기 위해, 각본의 대사 정보와 주인공의 감정 변화 정보를 학습 자질로 사용하고 영화 각본과 동영상 정보를 결합하는 트랜스포머 기반 아키텍처를 제안한다. 실험을 통해 제안 방법이 영화의 주요 사건을 식별하는 정확도를 높이는데 유용하며 결과적으로 영화 요약의 품질이 향상되는 것을 보인다.

PrefixLM에 기반한 한국어 텍스트 요약

이건희, 나승훈, 임준호, 김태형, 장두성

http://doi.org/10.5626/JOK.2022.49.6.475

본 논문에서는 거대 언어 모델 중 하나인 T5의 인코더-디코더 구조 대비 절반의 크기를 가지는 PrefixLM 구조의 한국어 모델을 학습하여 성능을 확인한다. PrefixLM 모델은 입력과 출력 시퀀스가 단일 시퀀스로 연결되어 트랜스포머 블록에 함께 입력된다. 이때 어텐션 내부 연산 시 사용되는 어텐션 마스크의 변형을 통해 단일 트랜스포머 블록에서 입력 시퀀스 부분은 양방향 어텐션, 출력 시퀀스 부분은 단방향 어텐션이 이루어지도록 조정된다. 이를 통해 인코더와 디코더 역할을 한 레이어에서 수행할 수 있게 된다. 소규모 데이터로 한국어 모델을 여러 방식으로 학습한다. 자연어 처리에서 중요한 태스크 중 하나인 텍스트 생성 요약 태스크에서 기반 모델, 위치 인코딩 방식 등에 따른 성능 차이를 확인한다. BART, T5와 비교하여 각각 2.17, 2.78점의 성능 향상을 보여 PrefixLM 구조가 한국어에서도 충분히 유효함을 보인다.

개체명 사실 판별을 통한 기계 요약의 사실 불일치 해소

신정완, 노윤석, 송현제, 박세영

http://doi.org/10.5626/JOK.2022.49.3.231

기계 요약의 사실 불일치 문제란 요약 모델이 생성한 요약문이 원문과 사실이 일치하지 않는 문제다. 사실 불일치는 개체명에서 주로 발생하므로 기존 연구들은 요약문의 잘못된 개체명을 교정하여 사실적 불일치를 해결하였다. 하지만, 명시적인 개체명 사실 불일치 판별 없이 모든 개체명을 순차적으로 교정하거나 모두 마스킹하여 교정을 시도하였다. 모든 개체명을 교정하는 연구는 원문과 일치하는 개체명도 교정을 시도하는 문제점과 마스킹되어 사실 정보임에도 불구하고 정보를 손실시키는 문제가 발생한다. 본 논문에서는 기존 연구들의 단점을 해결하기 위해 개체명 사실 여부를 판별한 뒤 사실 불일치 개체명에 대해서만 교정을 하는 방법을 제안한다. 이를 통해 사실 불일치 개체명이 발생시키는 오류를 방지할 수 있으며, 반대로 사실 일치 개체명에 대한 정보를 최대한 활용할 수 있다. 실험을 통해 제안한 방법이 기존연구들보다 요약문의 사실 불일치를 잘 해소함을 보였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr