디지털 라이브러리[ 검색결과 ]
멀티모달 그래프-SMILES 표현을 통한 거대 언어 모델에서의 분자 이해 향상
http://doi.org/10.5626/JOK.2025.52.5.379
최근 거대 언어 모델의 발전은 다양한 과업에서 뛰어난 성과를 보이며, 특히 멀티모달로 확장하는 연구도 활발히 진행되고 있다. 특히 BLIP-2는 Q-Former를 통해 이미지와 문자를 효율적으로 정렬하여 성능을 높였으며, 멀티모달 데이터로 사전 학습되어 고정된 이미지 인코더가 이를 지원한다. 이러한 발전에 영감을 받아 MolCA 모델은 분자 분야에 BLIP-2를 확장하여 성능을 높였지만, 그래프 인코더는 단일모달 데이터로 사전 학습되어 모델 학습 중 갱신이 필요한 한계가 있다. 따라서 본 논문에서는 이를 멀티모달 데이터로 사전 학습된 그래프 인코더로 대체하고 고정하는 방안을 제시한다. 실험 결과, 멀티모달 데이터로 사전 학습된 그래프 인코더를 사용할 때 성능이 대체로 향상되었으며, 단일모달 데이터로 사전 학습된 그래프 인코더는 갱신할 때 성능이 높은 것에 비해 멀티모달 데이터로 사전 학습된 그래프 인코더는 갱신하지 않을 때 모든 지표에서 성능이 더 좋은 것을 확인할 수 있었다.
한국어 소형 거대 언어 모델의 차트 이미지 설명 텍스트 생성 가능성에 관한 실험적 연구
http://doi.org/10.5626/JOK.2025.52.2.132
본 연구는 차트 이미지에서의 정보를 자동으로 생성하고 해석하는 데 있어 소형 거대 언어 모델(소형 거대 언어 모델)의 활용 가능성을 탐구하였다. 이를 위하여 차트 이미지로부터 텍스트 데이터를 생성하고 이에 대한 설명 데이터를 추가하여, 소형 거대 언어 모델 학습을 위한 인스트럭션 데이터셋을 구축하였다. 공개된 한국어 소형 거대 언어 모델을 대상으로 인스트럭션 튜닝을 진행하였으며, 해당 소형 거대 언어 모델에 대한 차트 이미지로 부터의 정보 추출 가능성을 실험하였다. 실험 결과, 구축된 인스트럭션 데이터셋을 통해 미세 조정된 소형 거대 언어 모델은 OpenAI의 gpt-4o-mini API와 유사한 수준에서의 설명 텍스트 생성이 가능한 것으로 나타났다. 본 연구를 통해 향후 한국어 소형 거대 언어 모델이 더욱 다양한 범위의 시각적 데이터를 대상으로 설명 텍스트 및 정보 제공에 사용될 수 있을 것으로 기대한다.
블랙아웃 발생시 다중 모달의 지식을 활용한 단일 모달 보행자 검출
http://doi.org/10.5626/JOK.2024.51.1.86
가시광선과 열화상 데이터를 함께 사용하는 다중 스펙트럼 보행자 검출은 컴퓨터 비전 분야에서 활발히 연구되고 있는 주제이다. 하지만 기존의 연구들은 대부분 카메라가 정상 작동하는 경우만 고려해 연구를 진행했고, 그 결과 카메라 블랙아웃이 발생했을 때 성능이 크게 떨어지는 문제가 있다. 카메라 블랙아웃은 다중 스펙트럼 보행자 검출에서 중요한 문제이므로, 본 논문은 카메라 블랙아웃이 발생했을 때 강인하게 동작하는 모델을 연구했다. 본 논문은 학습 과정에서 특징 추정 방법을 사용하여 학습한 다중 모달 지식을 단일 모달 보행자 검출에 활용하는 모델을 제안한다. 제안한 모델은 테스트 과정에서 블랙아웃으로 인해 정보에 손실이 발생했을 때 한 모달만 입력으로 들어오게 되더라도 다중 모달의 정보를 예측하여, 실제로 여러 모달의 정보를 활용한 것처럼 동작한다. 이를 통해 카메라 블랙아웃 상황에서 강인한 보행자 검출을 하여 문제를 개선한다.
TwinAMFNet: 3차원 시맨틱 세그멘테이션을 위한 Twin 어텐션 기반 멀티모달 퓨전 네트워크
http://doi.org/10.5626/JOK.2023.50.9.784
최근 자율주행에서 오인식으로 인한 충돌 사고가 증가함에 따라 멀티 모달 센서를 활용한 센서 퓨전 기반의 3차원 시맨틱 세그멘테이션에 관한 관심이 늘어나고 있다. 이에 따라 본 연구에서는 카메라와 LiDAR의 센서 퓨전을 통해 새로운 3차원 시맨틱 세그멘테이션 신경망인 TwinAMFNet을 소개한다. 제안하는 신경망은 RGB 영상과 2차원의 좌표 평면에 사영한 점 군 사영 영상을 처리하는 Twin 신경망을 포함하며 인코더 및 디코더에서의 특징 단계 퓨전을 위한 어텐션 기반 퓨전 모듈을 통해 더욱 확장된 객체 및 경계 구분에 대한 표현력 개선을 보여준다. 결과적으로 제안한 신경망은 mIoU를 기준으로 3차원 시맨틱 세그멘테이션에 약 68%의 성능을 기록하였으며 기존 연구들에 비해 약 4.5% 이상 향상된 성능을 보였다.
모바일 슈팅 게임 플레이 및 감상을 위한 실시간 다중촉감 청-촉각 변환 시스템
http://doi.org/10.5626/JOK.2023.50.3.228
본 연구에서는 모바일 디바이스로 슈팅 게임을 플레이하거나 감상하는 상황에서 사용자 경험의 향상을 위한 실시간 다중촉감 청-촉각 변환 시스템을 제시한다. 해당 시스템에서는 실시간으로 모바일 디바이스에서 발생하는 소리가 햅틱 피드백을 제공하기에 적절한지 감지하며, 감지된 소리를 기존 햅틱 피드백으로 주로 사용하는 진동 뿐 아니라 짧고 강한 힘의 임팩트 효과로도 표현한다. 이를 위해, 슈팅 게임 상황에서 진동과 비교했을 때 임팩트 햅틱 피드백의 적합성을 확인하였다. 그리고 음향심리학적 척도와 서포트 벡터 머신을 이용한 두 종류의 충격음 감지기를 개발하고, 기존 연구의 감지기와 그 성능을 비교하여 본 연구에서 개발한 두 가지 감지기가 기존 연구의 감지기보다 향상된 성능을 보임을 확인하였다. 최종적으로 전체 시스템의 사용자 경험을 아홉 가지 측면에서 사용자 실험을 통해 평가한 결과 본 연구에서 제시하는 시스템을 사용하였을 때가 그렇지 않은 상황에 비해 유의미하게 사용자 경험을 향상시켰다.
감정 역학과 멀티모달 정보 기반의 영화 요약
http://doi.org/10.5626/JOK.2022.49.9.735
자동 영화 요약은 영화의 중요한 장면을 담은 짧은 동영상을 만드는 것을 목적으로 하는 연구 주제이다. 본 연구는 자동 영화 요약을 위해 영화의 3가지 주요 요소인 인물, 줄거리, 동영상 정보를 종합적으로 고려한 요약 모델을 제안한다. 영화 줄거리 상의 주요 사건을 정확하게 식별하기 위해, 각본의 대사 정보와 주인공의 감정 변화 정보를 학습 자질로 사용하고 영화 각본과 동영상 정보를 결합하는 트랜스포머 기반 아키텍처를 제안한다. 실험을 통해 제안 방법이 영화의 주요 사건을 식별하는 정확도를 높이는데 유용하며 결과적으로 영화 요약의 품질이 향상되는 것을 보인다.
인터랙티브 VR 스포츠 어플리케이션을 위한 다중촉감 렌더링
http://doi.org/10.5626/JOK.2022.49.2.97
본 연구는 가상현실에서 발생하는 가상 충돌에 대한 사실적인 햅틱 피드백의 설계를 다룬다. 이를 위해 진동과 임팩트 두 모달리티의 햅틱 피드백을 생성할 수 있는 다중촉감 햅틱 장치를 구현하고 물리 엔진과 실제 충돌 데이터를 결합한 햅틱 렌더링 방법론을 설계한다. 또한, 당구, 탁구, 테니스의 세가지 스포츠 종목에 대한 가상 시뮬레이션을 제작하여 사용자가 서로 다른 물리적 특성을 가진 가상 객체와 상호작용할 수 있도록 한다. 사용자 평가를 진행하여 실제 물체들을 이용한 상호작용에서 느껴지는 감각과 진동, 임팩트 및 둘을 결합한 다중촉각이라는 세 가지 렌더링 조건으로 만들어진 햅틱 피드백을 주관적으로 비교한다. 그 결과는 각 렌더링 조건이 서로 다른 인지적 특성을 가지고 있고, 따라서 햅틱 모달리티의 추가는 역동적 상호작용 결과 발생한 가상 충돌에 대한 표현 범위를 넓힐 수 있음을 시사한다.
SMERT: 감성 분석 및 감정 탐지를 위한 단일 입출력 멀티 모달 BERT
http://doi.org/10.5626/JOK.2021.48.10.1122
감성 분석은 텍스트로부터 주관적인 의견 및 성향을 분석하고, 감정 탐지는 ‘행복’, ‘슬픔’과 같이 텍스트에서 나타나는 감정을 검출하는 연구다. 멀티 모달 데이터는 텍스트뿐만 아니라 이미지, 음성 데이터가 함께 나타나는 것을 의미한다. 관련 선행 연구에서 순환 신경망 모형 혹은 교차 트랜스포머를 사용한다. 하지만 순환 신경망 모형은 장기 의존성 문제를 가지며, 교차 트랜스포머는 모달리티별 특성을 반영하지 못하는 문제점이 있다. 이를 해결하기 위해 본 연구에서는 멀티 모달 데이터가 하나의 네트워크로 학습되는 단일 입출력 트랜스포머 기반 모형 SMERT를 제안한다. SMERT는 모달리티 결합 표현형을 얻어 이를 감성 분석 및 감정 탐지에 활용한다. 또한, BERT의 훈련 태스크를 멀티 모달 데이터에 활용하기 위해 개량하여 사용한다. 제안하는 모델의 검증을 위해 CMU-MOSEI 데이터셋과 여러 평가 지표를 이용하고, 모달리티 조합별 비교실험과 예시를 통해 모델의 우수성을 검증하였다.
이미지 정보를 이용한 영어-한국어 자동 번역
http://doi.org/10.5626/JOK.2019.46.7.690
기계 번역 연구는 하나의 언어로 된 텍스트를 다른 언어로 자동 변환하는 기술이다. 기존의 기계 번역 연구는 번역을 위해 오직 텍스트 데이터만 사용하였다. 따라서 기존 기계 번역 연구는 입력 텍스트와 관련된 다양한 정보들을 활용할 수 없다는 단점이 있다. 최근에는 텍스트 데이터만 사용하는 기존 기계 번역과 달리 입력 텍스트와 관련된 이미지 정보를 기계 번역 시스템의 추가 입력으로 사용하는 멀티모달 기계 번역 모델이 등장했다. 본 연구에서는 최근 연구 동향에 맞추어 기계 번역의 디코딩 타임에 이미지 정보를 추가하고 이를 영어-한국어 자동 번역에 적용한다. 또한 디코딩 타임에 텍스트 정보와 이미지 정보를 적절히 조절하기 위한 별도의 게이트를 적용한 모델을 제안하고, 실험을 통해 게이트를 적용하지 않은 모델보다 더 좋은 성능을 나타냄을 보인다.
멀티모달 딥러닝 모델을 이용한 실감효과 구간 검출
http://doi.org/10.5626/JOK.2018.45.12.1250
일반 영화를 4D 영화로 변환하기 위해서 실감효과를 추가할 구간을 검출 할 필요가 있다. 이를 자동화하기 위해 본 논문에서는 시각적 · 청각적 특징을 이용하여 실감효과 구간을 검출하는 멀티모달 딥러닝 모델을 제안한다. 실감효과 여부를 분류하기 위해 오디오 기반 컨볼루션 순환 신경망과 비디오 기반 롱 쇼트-텀 메모리, 다층 신경망을 이용하였다. 오디오 기반 모델과 비디오 기반 실감효과 분류 모델을 특징값-단계에서 결합하였다. 또한, 대화 구간에서는 실감효과가 잘 나타나지 않는다는 점을 이용하여 오디오 기반 컨볼루션 신경망 모델을 이용하여 비대화 구간을 검출하고, 앞서 획득한 실감효과 분류 모델결과와 스코어-단계에서 결합하였다. 마지막으로, 입력 윈도우 구간의 예측 스코어를 이용하여 전체 영화의 연속된 실감효과 구간을 검출하였다. 실제 4D 영화를 이용한 실험을 통해 시각적 · 청각적 특징을 모두 사용한 멀티모달 딥러닝 모델이 유니모달 딥러닝 모델에 비해 높은 검출 성능을 보여주는 것을 확인하였다.