디지털 라이브러리[ 검색결과 ]
강인한 Open-Vocabulary Object Detection을 위한 계층적 의미 반영 프롬프트 설계
http://doi.org/10.5626/JOK.2025.52.6.499
Open-Vocabulary Object Detection(OVOD)는 학습 시 사용된 카테고리에만 한정되는 기존 객체 탐지 방식의 한계를 극복하기 위해 제안된 기법이다. 기존 OVOD는 탐지하고자 하는 물체를 “a {category}” 라는 프롬프트를 활용해 분류기를 생성하여 물체를 탐지하였으나, 본 논문에서는 탐지하고자 하는 물체의 계층적 구조를 프롬프트에 적용하여 탐지 능력을 향상하였다. 특히, 문장의 길이가 길어지는 연결어의 사용을 줄이고, 강조하고자 하는 단어를 문장 앞에 위치시키는 등의 프롬프트 엔지니어링 방식을 사용하여 더 좋은 탐지 성능을 가지는 것을 확인하였다. 이는 물체의 계층 구조에 따른 내재적 의미를 잘 나타내는 문장을 구성할 수 있으며, 추가적인 컴퓨팅 자원 없이 분류기를 생성할 수 있다는 장점을 지닌다. 또한, 이미지 캡셔닝, 의료 영상 분석 등의 분야에서도 적용 가능하며, 사람에게 익숙한 계층적 표현을 활용함으로써 모델의 설명력 향상에 기여할 수 있다.
노이즈가 추가된 입력에서 멀티 모달 오디오 비주얼 객체 분할 모델의 성능 개선
http://doi.org/10.5626/JOK.2025.52.2.101
오디오와 비쥬얼 정보를 활용한 멀티 모달 기반의 객체 분할은 현재 컴퓨터 비전 분야에서 활발히 연구가 진행되고 있는 주제이다. Audio-Visual Segmentation (AVS)은 오디오 정보를 추가적으로 사용하여 비쥬얼 정보 내에 소리가 나는 객체 만을 픽셀 단위로 분할할 수 있게 제안된 오디오-비쥬얼 멀티 모달 객체 분할 연구이다. 이러한 기술은 로봇 인식과 자율 주행과 같이 객체를 정확하게 인식해야하는 응용 분야에 있어 중요하다. 실제 세계의 정보들을 수집하다 보면 원치 않은 정보들이 포함되거나 기계적인 결함과 같은 이유로 노이즈가 빈번하게 발생하며 이로 인해 AVS모델의 성능이 크게 저하될 수 있다. 본 논문에서는 오디오와 비쥬얼에 노이즈가 추가되면 성능이 저하되는 것을 확인하였으며, 이에 대처할 수 강인한 AVS연구의 필요성을 확인하였다. 따라서 본 연구에서는 노이즈를 제거하는 네트워크를 추가하여 노이즈가 추가되더라도 성능이 저하되는 문제를 개선한다.
블랙아웃 발생시 다중 모달의 지식을 활용한 단일 모달 보행자 검출
http://doi.org/10.5626/JOK.2024.51.1.86
가시광선과 열화상 데이터를 함께 사용하는 다중 스펙트럼 보행자 검출은 컴퓨터 비전 분야에서 활발히 연구되고 있는 주제이다. 하지만 기존의 연구들은 대부분 카메라가 정상 작동하는 경우만 고려해 연구를 진행했고, 그 결과 카메라 블랙아웃이 발생했을 때 성능이 크게 떨어지는 문제가 있다. 카메라 블랙아웃은 다중 스펙트럼 보행자 검출에서 중요한 문제이므로, 본 논문은 카메라 블랙아웃이 발생했을 때 강인하게 동작하는 모델을 연구했다. 본 논문은 학습 과정에서 특징 추정 방법을 사용하여 학습한 다중 모달 지식을 단일 모달 보행자 검출에 활용하는 모델을 제안한다. 제안한 모델은 테스트 과정에서 블랙아웃으로 인해 정보에 손실이 발생했을 때 한 모달만 입력으로 들어오게 되더라도 다중 모달의 정보를 예측하여, 실제로 여러 모달의 정보를 활용한 것처럼 동작한다. 이를 통해 카메라 블랙아웃 상황에서 강인한 보행자 검출을 하여 문제를 개선한다.