디지털 라이브러리[ 검색결과 ]
거대 언어모델을 활용한 측면 기반 비교 요약
http://doi.org/10.5626/JOK.2025.52.7.579
본 논문은 사용자의 의사 결정을 돕기 위해 두 아이템의 리뷰 셋으로부터 두 아이템을 비교할 수 있는 측면 기반 비교 요약문 생성 방법을 제안한다. 두 아이템의 리뷰가 주어졌을 때, 아이템들이 가진 다양한 측면들을 비교하기 위해 거대 언어모델을 활용하여 각 리뷰에서 주요 측면을 동적으로 생성한다. 각 리뷰에서 추출된 측면으로부터 두 아이템을 비교할 공통된 측면을 도출하기 위해, 두 아이템의 측면 리스트를 병합한다. 리뷰에서 불필요한 정보를 제거하기 위해 아이템 리뷰의 문장들을 가장 유사한 측면으로 분류한 후, 요약 과정을 거쳐 핵심 정보만 남긴다. 다음으로 공통된 측면마다 개별 아이템에 대한 전반적인 내용을 담으면서 동시에 대응하는 아이템과 비교할 수 있도록 거대 언어모델을 활용하여 추상 요약문을 생성한다. 실험에서는 호텔, 전자기기, 가구 도메인에서 사람이 작성한 비교 요약문과 시스템이 생성한 요약을 비교하였으며, 제안한 방법이 기존의 비교 모델보다 우수한 요약 성능을 보였다.
한국어 국회 회의록 생성 요약 말뭉치 구축 및 모델 개발
함영균, 강예지, 박서윤, 정용빈, 서현빈, 이이슬, 서혜진, 서샛별, 김한샘
http://doi.org/10.5626/JOK.2024.51.3.218
요약 연구의 주류는 아직 문서를 대상으로 하지만, 최근에는 회의 요약 연구에 대한 관심이 크게 높아지고 있다. 본 연구는 국립국어원 국어 빅데이터 구축 사업의 일환으로 국내에서 아직 연구되지 않은 국회 회의록 생성 요약에 대해 연구를 진행하였으며, 국회 회의록에 대한 생성 요약 데이터셋을 구축하였다. 구축한 데이터셋의 품질을 검증하기 위해 정성적인 인간 평가를 진행하였다. 또한 생성 요약 모델을 통해 구축된 데이터셋에 대한 정량 및 정성적 평가를 진행함으로써 국회 회의록 요약 데이터셋에 대한 평가 및 향후 생성 요약과 회의록 요약의 연구 방향을 모색하였다.
Exploring Text Summarization for Fake News Detection
Jie Bian, Seungeon Lee, Karandeep Singh, Meeyoung Cha
http://doi.org/10.5626/JOK.2022.49.11.926
가짜 뉴스 탐지는 방대한 양의 이종 데이터를 빠르게 수집하여 확실한 검증을 요한다. 이 논문은 텍스트 요약 기술이 뉴스의 중요한 정보나 단서를 찾아내어 가짜뉴스 탐지 문제에 기여할 수 있음을 제시한다. 잘 알려진 벤치마크 데이터셋에서 검증해본 결과 주요한 두 가지 텍스트 요약 기법이 - 추출요약 및 추상요약 - 모두 가짜뉴스 탐지 문제 해결에 각기 도움을 줌을 확인할 수 있었다. 더 나아가 방대한 뉴스 데이터로부터 텍스트 요약은 문장, 단어, 문서의 단계에서 주요 정보를 압축함으로써 근거 자료로 활용되는데 있어 모델의 설명 가능성도 보여준다.
개체명 사실 판별을 통한 기계 요약의 사실 불일치 해소
http://doi.org/10.5626/JOK.2022.49.3.231
기계 요약의 사실 불일치 문제란 요약 모델이 생성한 요약문이 원문과 사실이 일치하지 않는 문제다. 사실 불일치는 개체명에서 주로 발생하므로 기존 연구들은 요약문의 잘못된 개체명을 교정하여 사실적 불일치를 해결하였다. 하지만, 명시적인 개체명 사실 불일치 판별 없이 모든 개체명을 순차적으로 교정하거나 모두 마스킹하여 교정을 시도하였다. 모든 개체명을 교정하는 연구는 원문과 일치하는 개체명도 교정을 시도하는 문제점과 마스킹되어 사실 정보임에도 불구하고 정보를 손실시키는 문제가 발생한다. 본 논문에서는 기존 연구들의 단점을 해결하기 위해 개체명 사실 여부를 판별한 뒤 사실 불일치 개체명에 대해서만 교정을 하는 방법을 제안한다. 이를 통해 사실 불일치 개체명이 발생시키는 오류를 방지할 수 있으며, 반대로 사실 일치 개체명에 대한 정보를 최대한 활용할 수 있다. 실험을 통해 제안한 방법이 기존연구들보다 요약문의 사실 불일치를 잘 해소함을 보였다.
문장 랭킹 스코어와 그래프 기법을 사용한 질의 기반 생성 요약 모델
http://doi.org/10.5626/JOK.2020.47.12.1172
기본적인 생성 요약 모델은 문서 내 모든 중요 내용을 포함하는 짧은 요약문을 생성하는 것을 목표로 한다. 반면, 질의(Query) 기반 생성 요약 모델의 경우 문서 내에서 질의와 관련된 정보를 요약해야 한다. 기존의 질의 기반 요약 모델은 문서 내 단어들과 질의문 간의 어텐션(Attention) 메커니즘을 통해 단어의 가중치를 계산하고 이를 기반으로 문장의 중요도를 계산한다. 이러한 방식은 문서의 전체적인 문맥정보를 반영하기 어렵다는 단점이 있다. 본 논문에서는 이러한 문제를 문장 랭킹 스코어와 문장 단위 그래프 구조를 만들어 문장의 중요도뿐만 아니라 문맥 정보를 반영하여 생성 요약의 성능을 향상시킬 수 있는 새로운 생성 요약 기법을 제안한다. 실험으로 살펴본 최종 제안 모델의 성능은 같은 데이터를 사용하는 선행 모델 대비 ROUGE-1 1.44%p, ROUGE-L 0.52%p의 향상된 성능을 보인다.