디지털 라이브러리[ 검색결과 ]
이미지 묘사 기법에 대한 조사
http://doi.org/10.5626/JOK.2023.50.3.210
딥러닝의 발전과 함께 주목받고 있는 이미지 묘사 기술은 이미지 속 내용을 파악하는 컴퓨터 비전 분야와 문장으로 번역하는 자연어 처리 분야의 기술이 복합적으로 사용된다. 본 논문에서는 이미지 묘사 기술에 대한 연구를 3가지 카테고리(템플릿 기반의 방법, 시각적/의미적 유사도 검색 기반의 방법, 딥러닝 기반의 방법)로 정리한 후, 그 성능을 비교한다. 성능 비교를 통해서 우수한 성능을 보이는 모델의 특징이 무엇인지 파악함으로써 앞으로의 연구 방향을 제시하려고 한다. 또한, 최근 대부분의 방법론에서 사용하고 있는 딥러닝이 실제로 이미지 묘사 모델에서 우수한 성능을 보이는지도 살펴본다. 이런 과정을 통해, 지금까지의 이미지 묘사 기술에 대해 전반적인 내용을 정리하는 것을 목표로 한다. 각 연구의 성능은 일반적으로 많이 사용되는 Flickr30K, MS COCO 데이터셋에 대한 METEOR, BLEU 점수를 비교하고, 이에 대한 결과를 제공하지 않는 경우에는 테스트 이미지와 이에 대해 생성된 문장을 확인한다.
해안 물놀이객 검출을 위한 외곽선 특징맵과 CNN의 결합 모델
http://doi.org/10.5626/JOK.2019.46.1.31
물놀이 안전사고가 매년 발생함에 따라 최근 물놀이 안전사고 예방을 위한 지능형 영상 감시시스템이 많이 개발되고 있다. 본 논문은 지능형 영상 감시 시스템에서 해수욕장과 같은 복잡한 영상속의 유동적인 객체를 정확하게 감지하기 위해서 InsightCNN을 제안한다. 우선, 기초 모델을 Fully Convolutional Network의 1x1 Convolution과 ResNet의 Residual Block을 사용하여 구축하였다. 그리고 기초모델의 처음 레이어에 영상의 핵심 특징인 외곽선 특징 맵을 추가하였다. 데이터는 해운대를 촬영한 영상을 가지고 자체 데이터를 만들었다. 실험은 pretraining 된 Fully Convolutional Network와 pretraining 하지않은 Fully Convolutional Network와 Fully Convolutional Network에 InsightCNN의 핵심인 외곽선 특징 맵을 추가한 모델로 비교하였다. 실험결과를 통하여 InsightCNN의 아이디어의 우수성을 보여준다.
합성곱 신경망과 영상 개선 신경망을 이용한 저해상도 영상 객체 인식
http://doi.org/10.5626/JOK.2018.45.8.831
최근 합성곱 신경망을 비롯한 심층 학습 기술의 발전으로 영상에서의 객체 인식의 성능이 월등히 향상되었다. 하지만 객체 인식은 영상에 포함된 다양한 변형과 인식 대상이 되는 객체의 다양성 등으로 여전히 정복하기 어려운 문제들이 남아있다. 특히 저해상도 영상에서의 객체 인식에 관한 연구는 아직 초기 단계로 만족할 만한 성능을 보이지 못하고 있다. 본 논문에서는 저해상도 영상에서의 객체 인식 성능을 향상시키기 위한 영상 개선 신경망을 제안하고 이로부터 획득한 영상을 합성곱 신경망 기반의 객체인식 모델의 학습 및 인식에 추가적으로 활용함으로써 해상도 변화에 강건한 객체 인식 방법을 제안한다. 제안하는 방법의 효율성을 확인하기 위해 CIFAR-10 데이터베이스와 CIFAR-100 데이터베이스를 사용하여 저해상도 환경에서의 객체 인식 성능을 측정하였고, 제안하는 방법이 저해상도 객체 인식 성능을 향상시킴과 동시에 고해상도 객체 인식 성능도 안정적으로 유지하는 것을 확인하였다.
능동 시각을 이용한 이미지 - 텍스트 다중 모달 체계 학습
이미지 분류 문제는 인간 수준의 성능을 보이지만 일반적인 인식 문제는 어려운 점들이 남아있다. 실내 환경은 다양한 정보를 담고 있어 정보 처리의 양을 효율적으로 줄일 필요성이 있다. 정보의 양을 효율적으로 줄일 수 있도록 대상 객체의 위치 측정을 위한 변분 추론, 변분 베이지안 등의 방법이 소개되었지만, 모든 경우에 대한 주변(marginal) 확률 분포를 구하기 어렵기 때문에 현실적으로 계산하기 어렵다. 본 연구에서는 공간 변형 네트워크(Spatial Transformer Networks)을 응용하여 능동 시각을 이용한 이미지-텍스트 통합 인지 체계를 제안한다. 이 체계는 주어진 텍스트 정보를 바탕으로 이미지의 일부를 효율적으로 샘플링 하도록 학습한다. 이를 통해 전통적인 방법으로 해결하기 어려운 문제를 상당한 격차로 성능을 향상 시킬 수 있다는 것을 보인다. 제안하는 모델을 통해 샘플링 된 이미지를 정성적으로 분석하여 이 모델이 가지는 특성도 함께 살펴본다.