디지털 라이브러리[ 검색결과 ]
정확도와 다양성을 고려한 시각적 질문 생성 프레임워크
http://doi.org/10.5626/JOK.2025.52.1.62
시각적 질문 생성(Visual Question Generation)은 주어진 이미지에 대한 질문을 생성하는 과제로, 필요에 따라 답변이나 답변유형 등 추가 정보를 활용한다. 이미지에는 여러 객체가 포함되어 있어 VQG 시스템은 한 이미지에 대해 다양한 질문을 생성할 수 있어야 하며, 생성된 질문은 이미지 및 추가 정보와 연관성을 가져야 한다. 그러나 연관성에 집중한 모델은 학습 과정에서 데이터셋에 과적합되어 질문 다양성이 부족해질 수 있고, 반대로 다양성에 치우친 모델은 입력과의 연관성이 떨어질 수 있다. 이 사이 균형을 맞추기 위해, 본 논문에서는 BCVQG(BLIP-CVAE VQG)를 제안한다. BCVQG는 대규모 이미지-텍스트 데이터셋으로 사전학습된 비전-언어 모델 BLIP과 조건부 변분 오토인코더(Conditional Variational AutoEncoder)를 결합해 설계되었으며, 제안된 방법의 효과는 VQA2.0 데이터셋을 통한 정량적 및 정성적 평가를 통해 입증된다.
사전 학습된 Encoder-Decoder 모델 기반 질의응답 쌍 생성을 통한 기계 독해 학습 데이터 증강 기법
http://doi.org/10.5626/JOK.2022.49.2.166
기계 독해 연구는 문서에서 질문에 대한 정답을 찾는 것으로 대규모 데이터가 필요하지만 개인 연구자나 소규모 연구 기관이 구축하는 것은 한계가 있다. 이에 본 논문은 사전 학습 언어모델을 활용한 기계 독해 데이터 증강 기법을 제안한다. 기계 독해 데이터 증강 기법은 질의응답 쌍 생성 모델과 데이터 검증 모델로 구성된다. 질의응답 쌍 생성 모델은 정답 추출 모델과 질문 생성 모델로 구성되며, 두 모델 모두 BART 모델을 미세 조정하여 구축하였다. 데이터 검증 모델은 증강 데이터의 신뢰성을 높이기 위해 별도로 추가하였으며, 증강 데이터의 활용 여부를 결정한다. 검증 모델은 ELECTRA 모델을 기계 독해 모델로 미세 조정하여 사용하였다. 증강 기법을 통한 모델 성능 개선을 확인하기 위해 KorQuAD v1.0 데이터에 증강 기법을 적용하였다. 실험 결과 기존 모델 대비 EM Score의 경우 최대 7.2 상승하였고 F1 Score는 최대 5.7 상승하는 유의미한 결과를 도출하였다.
2단계 학습을 통한 Span Matrix 기반 정답 후보군 탐지 모델
http://doi.org/10.5626/JOK.2021.48.5.539
데이터 자동 구축이란 알고리즘이나 심층 신경망 등을 통해 데이터를 자동으로 구축하는 기술을 의미한다. 본 논문에서 목표로 하는 질의응답 데이터 자동 구축 시스템은 질문 생성 모델을 통해 주로 연구되었으며, 이는 주어진 단락과 관련된 질문을 생성하는 모델을 의미한다. 기존에는 질문 생성 모델에 단락과 정답 후보를 입력하여 이와 관련된 질문을 생성했으며, 질문 생성 모델에 입력되는 정답 후보는 규칙 기반 방법이나 심층 신경망을 이용한 방법 등을 통해 탐지되었다. 본 논문에서는 질문 생성의 하위 작업인 정답 탐지가 질문 생성에 큰 영향을 줄 것으로 판단했고, Span Matrix를 이용한 정답 후보군 탐지 모델 및 2단계 학습 방법을 제안했다. 다양한 정답 후보 추출 방법을 통해 생성한 질문이 질의응답 시스템에 어떤 영향을 주는지 알아보기 위한 실험을 진행했다. 제안 모델은 기존 모델에 비해 많은 수의 정답을 추출했으며, 개체명 데이터셋을 활용함으로써 학습 과정의 노이즈를 보완했다. 이를 통해 제안 모델이 추출한 정답 후보로 생성한 질의응답 데이터가 질의응답 시스템의 성능에 가장 크게 기여하는 것을 확인했다.