디지털 라이브러리[ 검색결과 ]
CCTV 동영상에서 보행자 이상행동 이벤트 검출을 위한 딥러닝 기반 이상행동 이벤트 인식 방법
http://doi.org/10.5626/JOK.2024.51.9.771
CCTV의 설치가 증가하면서 모니터링 업무량이 크게 증가했다. 하지만, 단순히 인력을 늘리는 것만으로는 해결할 수 없는 한계에 부딪혔다. 이 문제를 해결하기 위해, 지능형 CCTV 기술이 개발되었으나, 이마저도 다양한 상황에서 성능 저하의 문제를 겪고 있다. 본 논문에서는 다양한 상황에 적용 가능하고 강건 한 CCTV 동영상 통합 이상행동 인식 방법을 제안한다. 동영상으로부터 프레임 이미지를 추출하여 원시 이 미지, 히트맵 표현 이미지 입력을 사용하며, 이미지 단계와 특징 벡터 단계에서의 병합 방식을 통해 특징 벡터를 추출하고, 이를 바탕으로 2차원 합성곱 신경망 모델과 3차원 합성곱 신경망 모델, 그리고 LSTM과 평균 풀링을 활용한 이상행동 인식 방법을 제안한다. 성능 검증을 위해 소분류 클래스를 정의하고 총 1,957개의 이상행동 동영상 클립 데이터를 생성하여 검증한다. 제안하는 방법은 CCTV 영상을 통한 이상 행동 인식의 정확도를 향상시키며, 보안 및 감시 시스템의 효율성을 증대시킬 수 있을 것으로 기대한다.
비디오 부분 복사 검출을 위한 트랜스포머 기반 세그먼트 Fingerprint 생성 방법
http://doi.org/10.5626/JOK.2023.50.3.257
최근 비디오 촬영 기기의 보편화와 더불어 다양한 멀티미디어 플랫폼이 발전함에 따라 비디오 컨텐츠 이용량이 매년 증가하고 있다. 하지만 이에 따른 부작용으로 비디오 컨텐츠의 저작권을 침해 범죄 또한 증가하고 있다. 본 논문에서는 이러한 문제를 해결하기 위해서 다양한 변형에 강건한 비디오 복사 검출 시스템을 위한 세그먼트 Fingerprint 생성 방법을 제안한다. 하이브리드 비전 트랜스포머로 프레임 Fingerprint를 생성하고, 생성된 프레임 Fingerprint에 트랜스포머 인코더로 주요 프레임에 가중치를 부여하고 Maxpooling으로 융합하여 세그먼트 Fingerprint를 생성하는 방법을 제안한다. VCDB 데이터셋을 사용해서 F1 Score를 측정하여 0.772의 성능을 기록했다.
비디오 세그먼트 단위의 부분 복사 검출을 위한 CNN 기반 프레임 특징 벡터 융합 방법
http://doi.org/10.5626/JOK.2021.48.1.43
최근 유튜브나 인스타그램과 같은 콘텐츠 플랫폼을 주축으로 미디어에 대한 수요가 급속하게 증가하고 있다. 이에 따라 저작권 보호나 불법 콘텐츠의 유포와 같은 문제들이 발생하고 있다. 이러한 문제를 해결하기 위해 내용에 기반한 고유의 식별자를 추출하는 방법들이 제안되었지만 기존의 연구들은 미리 정해진 변형에 대하여 고안되었기 때문에 실제 비디오에서는 검출에 실패하였다. 본 논문에서는 실제 유통되는 비디오의 다양한 변형에 강인한 부분 복사 검출을 위해 프레임 정보를 융합한 딥러닝 기반의 세그먼트 Fingerprint를 제안한다. TIRI를 이용한 데이터 수준의 융합 방법과 풀링을 이용한 특징 벡터 수준의 융합 방법으로 추출한 Fingerprint를 Triplet loss를 이용하여 학습하고 검출 시스템을 설계하여 성능을 분석한다. 본 논문의 실험은 유튜브를 기반으로 수집한 데이터셋인 VCDB를 이용하였으며 5초 동안 샘플링한 프레임 특징 벡터를 Max 풀링으로 융합하여 66%의 성능을 얻었다.
다중 카메라로 관심선수를 촬영한 동영상에서 베스트 뷰 추출방법
http://doi.org/10.5626/JOK.2017.44.12.1319
최근 스포츠 중계에 동원되는 카메라 대수가 증가함에 따라 수많은 카메라 화면 중 순간적으로 최고의 화면을 고르는데 어려움이 있다. 지금까지 스포츠 경기를 촬영한 영상들에서 자동으로 최고의 화면을 선택하는 방법들이 연구되어 왔지만 배경이 고정된 영상들만을 고려해 배경이 움직이는 영상들을 고려하는 연구가 필요하다. 본 논문에서는 각 영상 별로 관심선수를 추적하여 획득한 영상 내 관심선수 영역을 대상으로 관심선수의 활동량, 얼굴 가시성, 다른 선수와의 겹침 정도, 이미지 블러 현상 정도를 매프레임 마다 정량적으로 나타내어 정량화된 값을 기반으로 최고의 화면을 선택한다. 이렇게 선택된 베스트 뷰를 20명의 일반 사람들에게 베스트 뷰와 워스트 뷰를 선택하게 하여 사람들이 선택한 베스트 뷰, 워스트 뷰와 비교한 결과 베스트 뷰와 일치율이 54.5%로 낮았지만 반대로 워스트 뷰와 일치율이 9%로 확실히 사람들이 선호하지 않는 화면은 선택하지 않는 것을 알 수 있었다.
DNN 학습을 이용한 퍼스널 비디오 시퀀스의 멀티 모달 기반 이벤트 분류 방법
최근 스마트 기기의 보급으로 자유롭게 비디오 컨텐츠를 생성하고 이를 빠르고 편리하게 공유할 수 있는 네트워크 환경이 갖추어지면서, 퍼스널 비디오가 급증하고 있다. 그러나, 퍼스널 비디오는 비디오라는 특성 상 멀티 모달리티로 구성되어 있으면서 데이터가 시간의 흐름에 따라 변화하기 때문에 이벤트 분류를 할 때 이에 대한 고려가 필요하다. 본 논문에서는 비디오 내의 멀티 모달리티들로부터 고수준의 특징을 추출하여 시간 순으로 재배열한 것을 바탕으로 모달리티 사이의 연관관계를 Deep Neural Network(DNN)으로 학습하여 퍼스널 비디오 이벤트를 분류하는 방법을 제안한다. 제안하는 방법은 비디오에 내포된 이미지와 오디오를 시간적으로 동기화하여 추출한 후 GoogLeNet과 Multi-Layer Perceptron(MLP)을 이용하여 각각 고수준 정보를 추출한다. 그리고 이들을 비디오에 표현된 시간순으로 재 배열하여 비디오 한 편당하나의 특징으로 재 생성하고 이를 바탕으로 학습한 DNN을 이용하여 퍼스널 비디오 이벤트를 분류한다.
SIFT 기술자 이진화를 이용한 근-복사 이미지 검출 후-검증 방법
최근 이미지 컨텐츠에 쉽게 접근할 수 있는 인터넷 환경과 이미지 편집 기술들의 보급으로 근-복사 이미지가 폭발적으로 증가하면서 관련 연구가 활발하게 이루어지고 있다. 그러나 근-복사 이미지 검출 방법으로 주로 쓰이는 BoF(Bag-of-Feature)는 고차원의 지역 특징을 저차원으로 근사화하는 양자화과정에서 서로 다른 특징들을 같다고 하거나 같은 특징을 다르다고 하는 한계가 발생할 수 있으므로 이를 극복하기 위한 후-검증 방법이 필요하다. 본 논문에서는 BoF의 후-검증 방법으로 SIFT(Scale Invariant Feature Transform) 기술자를 128bit의 이진 코드로 변환한 후 BoF 방법에 의하여 추출된 짧은 후보 리스트에 대하여 변환한 코드들간의 거리를 비교하는 방법을 제안하고 성능을 분석하였다. 1500장의 원본 이미지들에 대한 실험을 통하여 기존의 BoF 방법과 비교하여 근-복사 이미지 검출 정확도가 4% 향상됨을 보였다.
User Edited Contents 생성을 위한 동영상 메타데이터 스키마 설계 및 저작 도구 구현
본 논문에서는 UEC (User Edited Contents)를 생성을 위한 비디오 세그먼트 검색에 적합한 동영상 메타데이터 스키마를 설계 및 제안한다. 전통적인 동영상 하위 구조 및 내용 정보 구조와 달리, 제안한 동영상 메타데이터 스키마에서 메타데이터는 Title-Event-Place (Scene)-Shot의 계층적인 구조를 가지며, 각 단위 세그먼트 별로 저장하여야 할 정보를 구조화하여 정의하였다. 현재 생성되어 배포되고 있는 UEC에 대한 논리적인 특징 분석을 통해 Pilot 태깅 실험을 설계하고, 피 실험자들의 태깅 행태와 태그들의 분석을 통해 이러한 메타데이터의 구성 방식과 스키마를 설계하였다. 제안한 시키마는 UEC 생성을 위한 동영상 검색의 특성을 고려하여 설계되었기 때문에 UEC 생성에 유용한 비디오 세그먼트를 범용 MPEG-7 MDS (Multimedia Description Scheme) 보다 쉽게 찾을 수 있도록 한다.