검색 : [ keyword: 멀티모달 ] (10)

멀티모달 그래프-SMILES 표현을 통한 거대 언어 모델에서의 분자 이해 향상

http://doi.org/10.5626/JOK.2025.52.5.379

최근 거대 언어 모델의 발전은 다양한 과업에서 뛰어난 성과를 보이며, 특히 멀티모달로 확장하는 연구도 활발히 진행되고 있다. 특히 BLIP-2는 Q-Former를 통해 이미지와 문자를 효율적으로 정렬하여 성능을 높였으며, 멀티모달 데이터로 사전 학습되어 고정된 이미지 인코더가 이를 지원한다. 이러한 발전에 영감을 받아 MolCA 모델은 분자 분야에 BLIP-2를 확장하여 성능을 높였지만, 그래프 인코더는 단일모달 데이터로 사전 학습되어 모델 학습 중 갱신이 필요한 한계가 있다. 따라서 본 논문에서는 이를 멀티모달 데이터로 사전 학습된 그래프 인코더로 대체하고 고정하는 방안을 제시한다. 실험 결과, 멀티모달 데이터로 사전 학습된 그래프 인코더를 사용할 때 성능이 대체로 향상되었으며, 단일모달 데이터로 사전 학습된 그래프 인코더는 갱신할 때 성능이 높은 것에 비해 멀티모달 데이터로 사전 학습된 그래프 인코더는 갱신하지 않을 때 모든 지표에서 성능이 더 좋은 것을 확인할 수 있었다.

한국어 소형 거대 언어 모델의 차트 이미지 설명 텍스트 생성 가능성에 관한 실험적 연구

안효준, 최성필

http://doi.org/10.5626/JOK.2025.52.2.132

본 연구는 차트 이미지에서의 정보를 자동으로 생성하고 해석하는 데 있어 소형 거대 언어 모델(소형 거대 언어 모델)의 활용 가능성을 탐구하였다. 이를 위하여 차트 이미지로부터 텍스트 데이터를 생성하고 이에 대한 설명 데이터를 추가하여, 소형 거대 언어 모델 학습을 위한 인스트럭션 데이터셋을 구축하였다. 공개된 한국어 소형 거대 언어 모델을 대상으로 인스트럭션 튜닝을 진행하였으며, 해당 소형 거대 언어 모델에 대한 차트 이미지로 부터의 정보 추출 가능성을 실험하였다. 실험 결과, 구축된 인스트럭션 데이터셋을 통해 미세 조정된 소형 거대 언어 모델은 OpenAI의 gpt-4o-mini API와 유사한 수준에서의 설명 텍스트 생성이 가능한 것으로 나타났다. 본 연구를 통해 향후 한국어 소형 거대 언어 모델이 더욱 다양한 범위의 시각적 데이터를 대상으로 설명 텍스트 및 정보 제공에 사용될 수 있을 것으로 기대한다.

정확도와 다양성을 고려한 시각적 질문 생성 프레임워크

최희연, 최동완

http://doi.org/10.5626/JOK.2025.52.1.62

시각적 질문 생성(Visual Question Generation)은 주어진 이미지에 대한 질문을 생성하는 과제로, 필요에 따라 답변이나 답변유형 등 추가 정보를 활용한다. 이미지에는 여러 객체가 포함되어 있어 VQG 시스템은 한 이미지에 대해 다양한 질문을 생성할 수 있어야 하며, 생성된 질문은 이미지 및 추가 정보와 연관성을 가져야 한다. 그러나 연관성에 집중한 모델은 학습 과정에서 데이터셋에 과적합되어 질문 다양성이 부족해질 수 있고, 반대로 다양성에 치우친 모델은 입력과의 연관성이 떨어질 수 있다. 이 사이 균형을 맞추기 위해, 본 논문에서는 BCVQG(BLIP-CVAE VQG)를 제안한다. BCVQG는 대규모 이미지-텍스트 데이터셋으로 사전학습된 비전-언어 모델 BLIP과 조건부 변분 오토인코더(Conditional Variational AutoEncoder)를 결합해 설계되었으며, 제안된 방법의 효과는 VQA2.0 데이터셋을 통한 정량적 및 정성적 평가를 통해 입증된다.

TwinAMFNet: 3차원 시맨틱 세그멘테이션을 위한 Twin 어텐션 기반 멀티모달 퓨전 네트워크

윤재근, 전지연, 송광호

http://doi.org/10.5626/JOK.2023.50.9.784

최근 자율주행에서 오인식으로 인한 충돌 사고가 증가함에 따라 멀티 모달 센서를 활용한 센서 퓨전 기반의 3차원 시맨틱 세그멘테이션에 관한 관심이 늘어나고 있다. 이에 따라 본 연구에서는 카메라와 LiDAR의 센서 퓨전을 통해 새로운 3차원 시맨틱 세그멘테이션 신경망인 TwinAMFNet을 소개한다. 제안하는 신경망은 RGB 영상과 2차원의 좌표 평면에 사영한 점 군 사영 영상을 처리하는 Twin 신경망을 포함하며 인코더 및 디코더에서의 특징 단계 퓨전을 위한 어텐션 기반 퓨전 모듈을 통해 더욱 확장된 객체 및 경계 구분에 대한 표현력 개선을 보여준다. 결과적으로 제안한 신경망은 mIoU를 기준으로 3차원 시맨틱 세그멘테이션에 약 68%의 성능을 기록하였으며 기존 연구들에 비해 약 4.5% 이상 향상된 성능을 보였다.

감정 역학과 멀티모달 정보 기반의 영화 요약

이명지, 권홍석, 이원기, 이종혁

http://doi.org/10.5626/JOK.2022.49.9.735

자동 영화 요약은 영화의 중요한 장면을 담은 짧은 동영상을 만드는 것을 목적으로 하는 연구 주제이다. 본 연구는 자동 영화 요약을 위해 영화의 3가지 주요 요소인 인물, 줄거리, 동영상 정보를 종합적으로 고려한 요약 모델을 제안한다. 영화 줄거리 상의 주요 사건을 정확하게 식별하기 위해, 각본의 대사 정보와 주인공의 감정 변화 정보를 학습 자질로 사용하고 영화 각본과 동영상 정보를 결합하는 트랜스포머 기반 아키텍처를 제안한다. 실험을 통해 제안 방법이 영화의 주요 사건을 식별하는 정확도를 높이는데 유용하며 결과적으로 영화 요약의 품질이 향상되는 것을 보인다.

비디오 질의응답 정확도 향상을 위해 신뢰성 기반 다중 선택 학습을 활용한 앙상블 모델에 관한 연구

박규민, 김아영, 박성배

http://doi.org/10.5626/JOK.2022.49.4.284

비디오 질의응답은 비디오와 질의를 입력으로 받아서 적절한 응답을 도출하는 문제로, 대표적인 멀티모달 문제 중 하나이다. 비디오 질의응답 모델은 질의에 적절한 응답을 도출하기 위해서 멀티모달 정보뿐만 아니라 시계열 정보를 처리할 수 있는 능력이 필요하다. 그래서 모든 질의에 강건하게 응답하는 단일 모델을 설계하는 것은 어려운 문제이다. 성능 향상을 위해 기존의 여러 모델들을 결합하는 방법이 있다. 하지만 기존의 여러 모델들을 결합하는 방법은 모델마다 비디오를 표현하는 관점이 다르기에 성능을 개선하기 위해서는 각 모델의 관점을 반영할 수 있는 앙상블 모델과 학습 기법이 필요하다. 본 논문에서는 비디오 질의응답 성능을 높이기 위하여 신뢰성 기반 다중 선택 학습(CMCL) 기반의 앙상블 모델을 제안한다. DramaQA 데이터셋으로 실험한 결과, 기존의 두 질의응답 모델에 CMCL을 적용한 모델이 단일 모델들보다 더 높은 성능을 보여주었으며 앙상블 방법들이 모델에 미치는 영향을 분석하였다.

이미지 정보를 이용한 영어-한국어 자동 번역

배장성, 황현선, 이창기

http://doi.org/10.5626/JOK.2019.46.7.690

기계 번역 연구는 하나의 언어로 된 텍스트를 다른 언어로 자동 변환하는 기술이다. 기존의 기계 번역 연구는 번역을 위해 오직 텍스트 데이터만 사용하였다. 따라서 기존 기계 번역 연구는 입력 텍스트와 관련된 다양한 정보들을 활용할 수 없다는 단점이 있다. 최근에는 텍스트 데이터만 사용하는 기존 기계 번역과 달리 입력 텍스트와 관련된 이미지 정보를 기계 번역 시스템의 추가 입력으로 사용하는 멀티모달 기계 번역 모델이 등장했다. 본 연구에서는 최근 연구 동향에 맞추어 기계 번역의 디코딩 타임에 이미지 정보를 추가하고 이를 영어-한국어 자동 번역에 적용한다. 또한 디코딩 타임에 텍스트 정보와 이미지 정보를 적절히 조절하기 위한 별도의 게이트를 적용한 모델을 제안하고, 실험을 통해 게이트를 적용하지 않은 모델보다 더 좋은 성능을 나타냄을 보인다.

멀티모달 딥러닝 모델을 이용한 실감효과 구간 검출

임정선, 한미경, 윤현진

http://doi.org/10.5626/JOK.2018.45.12.1250

일반 영화를 4D 영화로 변환하기 위해서 실감효과를 추가할 구간을 검출 할 필요가 있다. 이를 자동화하기 위해 본 논문에서는 시각적 · 청각적 특징을 이용하여 실감효과 구간을 검출하는 멀티모달 딥러닝 모델을 제안한다. 실감효과 여부를 분류하기 위해 오디오 기반 컨볼루션 순환 신경망과 비디오 기반 롱 쇼트-텀 메모리, 다층 신경망을 이용하였다. 오디오 기반 모델과 비디오 기반 실감효과 분류 모델을 특징값-단계에서 결합하였다. 또한, 대화 구간에서는 실감효과가 잘 나타나지 않는다는 점을 이용하여 오디오 기반 컨볼루션 신경망 모델을 이용하여 비대화 구간을 검출하고, 앞서 획득한 실감효과 분류 모델결과와 스코어-단계에서 결합하였다. 마지막으로, 입력 윈도우 구간의 예측 스코어를 이용하여 전체 영화의 연속된 실감효과 구간을 검출하였다. 실제 4D 영화를 이용한 실험을 통해 시각적 · 청각적 특징을 모두 사용한 멀티모달 딥러닝 모델이 유니모달 딥러닝 모델에 비해 높은 검출 성능을 보여주는 것을 확인하였다.

DNN 학습을 이용한 퍼스널 비디오 시퀀스의 멀티 모달 기반 이벤트 분류 방법

이유진, 낭종호

http://doi.org/

최근 스마트 기기의 보급으로 자유롭게 비디오 컨텐츠를 생성하고 이를 빠르고 편리하게 공유할 수 있는 네트워크 환경이 갖추어지면서, 퍼스널 비디오가 급증하고 있다. 그러나, 퍼스널 비디오는 비디오라는 특성 상 멀티 모달리티로 구성되어 있으면서 데이터가 시간의 흐름에 따라 변화하기 때문에 이벤트 분류를 할 때 이에 대한 고려가 필요하다. 본 논문에서는 비디오 내의 멀티 모달리티들로부터 고수준의 특징을 추출하여 시간 순으로 재배열한 것을 바탕으로 모달리티 사이의 연관관계를 Deep Neural Network(DNN)으로 학습하여 퍼스널 비디오 이벤트를 분류하는 방법을 제안한다. 제안하는 방법은 비디오에 내포된 이미지와 오디오를 시간적으로 동기화하여 추출한 후 GoogLeNet과 Multi-Layer Perceptron(MLP)을 이용하여 각각 고수준 정보를 추출한다. 그리고 이들을 비디오에 표현된 시간순으로 재 배열하여 비디오 한 편당하나의 특징으로 재 생성하고 이를 바탕으로 학습한 DNN을 이용하여 퍼스널 비디오 이벤트를 분류한다.

멀티모달 개념계층모델을 이용한 만화비디오 컨텐츠 학습을 통한 등장인물 기반 비디오 자막 생성

김경민, 하정우, 이범진, 장병탁

http://doi.org/

기존 멀티모달 학습 기법의 대부분은 데이터에 포함된 컨텐츠 모델링을 통한 지식획득보다는 이미지나 비디오 검색 및 태깅 등 구체적 문제 해결에 집중되어 있었다. 본 논문에서는 멀티모달 개념계층모델을 이용하여 만화 비디오로부터 컨텐츠를 학습하는 기법을 제안하고 학습된 모델로부터 등장인물의 특성을 고려한 자막을 생성하는 방법을 제시한다. 멀티모달 개념계층 모델은 개념변수층과 단어와 이미지 패치의 고차 패턴을 표현하는 멀티모달 하이퍼네트워크층으로 구성되며 이러한 모델구조를 통해 각각의 개념변수는 단어와 이미지패치 변수들의 확률분포로 표현된다. 제안하는 모델은 비디오의 자막과 화면 이미지로부터 등장 인물의 특성을 개념으로서 학습하며 이는 순차적 베이지안 학습으로 설명된다. 그리고 학습된 개념을 기반으로 텍스트 질의가 주어질 때 등장인물의 특성을 고려한 비디오 자막을 생성한다. 실험을 위해 총 268분 상영시간의 유아용 비디오 ‘뽀로로’로부터 등장인물들의 개념이 학습되고 학습된 모델로부터 각각의 등장인물의 특성을 고려한 자막 문장을 생성했으며 이를 기존의 멀티모달 학습모델과 비교했다. 실험결과는 멀티모달 개념계층모델은 다른 모델들에 비해 더 정확한 자막 문장이 생성됨을 보여준다. 또한 동일한 질의어에 대해서도 등장인물의 특성을 반영하는 다양한 문장이 생성됨을 확인하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr