디지털 라이브러리[ 검색결과 ]
검색 : [ author: 최수용 ] (1)
강인한 Open-Vocabulary Object Detection을 위한 계층적 의미 반영 프롬프트 설계
http://doi.org/10.5626/JOK.2025.52.6.499
Open-Vocabulary Object Detection(OVOD)는 학습 시 사용된 카테고리에만 한정되는 기존 객체 탐지 방식의 한계를 극복하기 위해 제안된 기법이다. 기존 OVOD는 탐지하고자 하는 물체를 “a {category}” 라는 프롬프트를 활용해 분류기를 생성하여 물체를 탐지하였으나, 본 논문에서는 탐지하고자 하는 물체의 계층적 구조를 프롬프트에 적용하여 탐지 능력을 향상하였다. 특히, 문장의 길이가 길어지는 연결어의 사용을 줄이고, 강조하고자 하는 단어를 문장 앞에 위치시키는 등의 프롬프트 엔지니어링 방식을 사용하여 더 좋은 탐지 성능을 가지는 것을 확인하였다. 이는 물체의 계층 구조에 따른 내재적 의미를 잘 나타내는 문장을 구성할 수 있으며, 추가적인 컴퓨팅 자원 없이 분류기를 생성할 수 있다는 장점을 지닌다. 또한, 이미지 캡셔닝, 의료 영상 분석 등의 분야에서도 적용 가능하며, 사람에게 익숙한 계층적 표현을 활용함으로써 모델의 설명력 향상에 기여할 수 있다.