정확도와 다양성을 고려한 시각적 질문 생성 프레임워크 


52권  1호, pp. 62-69, 1월  2025
10.5626/JOK.2025.52.1.62


PDF

  요약

시각적 질문 생성(Visual Question Generation)은 주어진 이미지에 대한 질문을 생성하는 과제로, 필요에 따라 답변이나 답변유형 등 추가 정보를 활용한다. 이미지에는 여러 객체가 포함되어 있어 VQG 시스템은 한 이미지에 대해 다양한 질문을 생성할 수 있어야 하며, 생성된 질문은 이미지 및 추가 정보와 연관성을 가져야 한다. 그러나 연관성에 집중한 모델은 학습 과정에서 데이터셋에 과적합되어 질문 다양성이 부족해질 수 있고, 반대로 다양성에 치우친 모델은 입력과의 연관성이 떨어질 수 있다. 이 사이 균형을 맞추기 위해, 본 논문에서는 BCVQG(BLIP-CVAE VQG)를 제안한다. BCVQG는 대규모 이미지-텍스트 데이터셋으로 사전학습된 비전-언어 모델 BLIP과 조건부 변분 오토인코더(Conditional Variational AutoEncoder)를 결합해 설계되었으며, 제안된 방법의 효과는 VQA2.0 데이터셋을 통한 정량적 및 정성적 평가를 통해 입증된다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

H. Choi and D. Choi, "A VQG Framework for Accurate and Diverse Question Generation," Journal of KIISE, JOK, vol. 52, no. 1, pp. 62-69, 2025. DOI: 10.5626/JOK.2025.52.1.62.


[ACM Style]

Hee-Yeon Choi and Dong-Wan Choi. 2025. A VQG Framework for Accurate and Diverse Question Generation. Journal of KIISE, JOK, 52, 1, (2025), 62-69. DOI: 10.5626/JOK.2025.52.1.62.


[KCI Style]

최희연, 최동완, "정확도와 다양성을 고려한 시각적 질문 생성 프레임워크," 한국정보과학회 논문지, 제52권, 제1호, 62~69쪽, 2025. DOI: 10.5626/JOK.2025.52.1.62.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr