디지털 라이브러리[ 검색결과 ]
연속된 이미지에서 중심점과 변위 추정을 통한 비디오 객체 탐지 네트워크
http://doi.org/10.5626/JOK.2022.49.6.416
규모가 큰 컨테이너와 물류 기계와 같은 다양한 장애물이 배치되어 있으며, 공간이 넓어 한 번에 감시하기 어려운 항만과 같은 환경에서, 높은 지점에 설치된 CCTV에서 촬영한 작은 크기의 보행자부터 항만 차량 객체까지 훨씬 더 정확하게 탐지하기 위한 객체 탐지 방법을 연구하였다. 형상이 불명확하고 작은 크기의 객체를 학습해야 하기 때문에 고해상도의 정보가 필요하므로 앵커-프리 방식의 네트워크인 CenterNet을 기반으로 훈련하였으며, 매우 작은 객체의 정보를 보완하기 위해 이미지의 한 장씩만 훈련시키는 것이 아니라 연속된 이미지를 여러 장 쌓아 학습하였고, 부족한 데이터셋 문제를 여러 개의 데이터셋을 함께 사용하고 여러 장의 정지 이미지를 랜덤으로 뽑아 하나의 이미지로 만들어 연속된 이미지로 가공하는 데이터 증강을 통해 해결하여 과적합을 방지하였다.
DNN 학습을 이용한 퍼스널 비디오 시퀀스의 멀티 모달 기반 이벤트 분류 방법
최근 스마트 기기의 보급으로 자유롭게 비디오 컨텐츠를 생성하고 이를 빠르고 편리하게 공유할 수 있는 네트워크 환경이 갖추어지면서, 퍼스널 비디오가 급증하고 있다. 그러나, 퍼스널 비디오는 비디오라는 특성 상 멀티 모달리티로 구성되어 있으면서 데이터가 시간의 흐름에 따라 변화하기 때문에 이벤트 분류를 할 때 이에 대한 고려가 필요하다. 본 논문에서는 비디오 내의 멀티 모달리티들로부터 고수준의 특징을 추출하여 시간 순으로 재배열한 것을 바탕으로 모달리티 사이의 연관관계를 Deep Neural Network(DNN)으로 학습하여 퍼스널 비디오 이벤트를 분류하는 방법을 제안한다. 제안하는 방법은 비디오에 내포된 이미지와 오디오를 시간적으로 동기화하여 추출한 후 GoogLeNet과 Multi-Layer Perceptron(MLP)을 이용하여 각각 고수준 정보를 추출한다. 그리고 이들을 비디오에 표현된 시간순으로 재 배열하여 비디오 한 편당하나의 특징으로 재 생성하고 이를 바탕으로 학습한 DNN을 이용하여 퍼스널 비디오 이벤트를 분류한다.
SIFT 기술자 이진화를 이용한 근-복사 이미지 검출 후-검증 방법
최근 이미지 컨텐츠에 쉽게 접근할 수 있는 인터넷 환경과 이미지 편집 기술들의 보급으로 근-복사 이미지가 폭발적으로 증가하면서 관련 연구가 활발하게 이루어지고 있다. 그러나 근-복사 이미지 검출 방법으로 주로 쓰이는 BoF(Bag-of-Feature)는 고차원의 지역 특징을 저차원으로 근사화하는 양자화과정에서 서로 다른 특징들을 같다고 하거나 같은 특징을 다르다고 하는 한계가 발생할 수 있으므로 이를 극복하기 위한 후-검증 방법이 필요하다. 본 논문에서는 BoF의 후-검증 방법으로 SIFT(Scale Invariant Feature Transform) 기술자를 128bit의 이진 코드로 변환한 후 BoF 방법에 의하여 추출된 짧은 후보 리스트에 대하여 변환한 코드들간의 거리를 비교하는 방법을 제안하고 성능을 분석하였다. 1500장의 원본 이미지들에 대한 실험을 통하여 기존의 BoF 방법과 비교하여 근-복사 이미지 검출 정확도가 4% 향상됨을 보였다.