검색 : [ keyword: Multi Modal ] (2)

정확도와 다양성을 고려한 시각적 질문 생성 프레임워크

최희연, 최동완

http://doi.org/10.5626/JOK.2025.52.1.62

시각적 질문 생성(Visual Question Generation)은 주어진 이미지에 대한 질문을 생성하는 과제로, 필요에 따라 답변이나 답변유형 등 추가 정보를 활용한다. 이미지에는 여러 객체가 포함되어 있어 VQG 시스템은 한 이미지에 대해 다양한 질문을 생성할 수 있어야 하며, 생성된 질문은 이미지 및 추가 정보와 연관성을 가져야 한다. 그러나 연관성에 집중한 모델은 학습 과정에서 데이터셋에 과적합되어 질문 다양성이 부족해질 수 있고, 반대로 다양성에 치우친 모델은 입력과의 연관성이 떨어질 수 있다. 이 사이 균형을 맞추기 위해, 본 논문에서는 BCVQG(BLIP-CVAE VQG)를 제안한다. BCVQG는 대규모 이미지-텍스트 데이터셋으로 사전학습된 비전-언어 모델 BLIP과 조건부 변분 오토인코더(Conditional Variational AutoEncoder)를 결합해 설계되었으며, 제안된 방법의 효과는 VQA2.0 데이터셋을 통한 정량적 및 정성적 평가를 통해 입증된다.

언어-영상 사전 학습 모델 기반 샘플 선택을 활용한 노이즈 레이블 학습

차봉건, 최민진, 이종욱

http://doi.org/10.5626/JOK.2023.50.6.511

심층신경망은 부정확한 레이블을 가진 데이터를 학습하는 경우 일반화 성능이 크게 저하되는 문제가 있다. 기존 연구는 모델이 학습 초기 단계에 정답 레이블을 가진 깨끗한 데이터를 주로 학습하는 경향을 관찰하였고, 이를 기반으로 손실 값이 작은 샘플을 깨끗한 데이터로 간주하여 데이터를 선별적으로 학습하는 샘플 선택 방법을 통해 성능을 개선하였다. 그러나 노이즈 레이블이 정답 레이블과 유사한 경우(예: 물개 vs 수달) 모델이 초기 학습 과정에서 노이즈 데이터를 빠르게 학습하여 샘플 선택 방법이 효과적이지 못한 한계가 있다. 본 논문에서는 사전 학습된 언어-영상 모델의 제로 샷 예측을 기반으로 모델의 초기 학습 과정 없이 깨끗한 데이터를 효과적으로 구분하여 학습하는 SLIP을 제안한다. 본 연구의 제안모델은 CIFAR-10, CIFAR-100, WebVision 데이터셋에서 학습 결과 기존 제안 방법들 대비 최대 18.45%p 개선된 성능을 보인다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr