디지털 라이브러리[ 검색결과 ]
자기 교사 학습 모델의 특장점 분석과 사진 분류 및 객체 탐지 성능 분석 연구
http://doi.org/10.5626/JOK.2024.51.7.609
최근, 교사 학습 기반의 인공지능 분야가 급속도로 발전하고 있다. 그러나 교사 학습은 정답 값이 지정된 데이터집합에 의존하기 때문에, 정답 값을 확보하기 위한 비용이 커진다. 이러한 문제점을 해 결하기 위해 정답 값없이 사진의 일반적인 특징을 학습할 수 있는 자기 교사 학습(Self-supervised learning)이 연구되고 있다. 본 논문에서는 다양한 자기 교사 학습 모델을 학습 방식과 백본 네트워크 기 준으로 분류하고, 각 모델의 장단점, 성능을 비교 분석하였다. 성능 비교를 위해 사진 분류 작업을 사용하 였다. 또한 전이 학습의 성능을 비교하기 위해 세밀한 예측 과업의 성능 또한 비교 분석하였다. 그 결과, 긍정적 쌍만 사용하는 모델이 노이즈를 최소화하여 부정적인 쌍을 같이 사용하는 모델들보다 높은 성능을 달성하였다. 또한 세밀한 예측의 경우 이미지를 마스킹하여 학습하거나 멀티스테이지 모델 등을 활용하여 지역적인 정보를 추가로 학습하는 방식이 더욱 높은 성능을 달성한 것을 확인하였다.
비디오 프레임 선택을 통한 주거 공간 인간 행동 인식 모델 경량화 방안 제안
http://doi.org/10.5626/JOK.2023.50.12.1111
주거공간의 CCTV 영상으로부터 인간 행동을 인식하는 것은 주거 공간의 보안 및 안전 문제에 선제적 대응을 가능하게 하기 때문에, 이를 위한 인공지능 모델을 개발하는 것이 필요하다. 또한, 실제 현장에서 유의미하게 활용할 수 있기 위해서는 인간 행동 인식 모델이 기존의 서버급 컴퓨팅 파워에서 구동되는 인공지능 모델들보다 훨씬 경량화되면서 동시에 인식 성능은 유지하는 것이 필수적이다. 따라서, 본 논문에서는 인간 행동 인식 모델의 경량화 및 실행 속도 향상과 함께 우수한 인식 성능을 확보할 수 있도록 비디오 프레임 선택을 통한 cross-modal PoseC3D 모델을 제안한다. Cross-modal PoseC3D 모델은 RGB 이미지 데이터와 인간 스켈레톤 데이터를 함께 결합하여 하나의 모델에 학습시키는 방식으로 데이터 정보를 최대한 유지하며 모델 경량화를 가능하게 한다. 또한, 학습 및 추론 과정에 전체 비디오 프레임을 이용하지 않고, 프레임의 정보값 차이를 기반으로 유의미한 프레임들만을 선택 및 이용하여 빠른 실행 속도를 확보한다. 본 논문에서 제안한 주거 공간 인간 행동 인식 모델을 AI Hub에 공개된 주거 및 공용 공간 이상행동 데이터셋에 대해 학습하여 성능을 검증한 결과, 기존의 모델들보다 경량화된 모델로 다양한 조건에서 유사하거나 향상된 인식 성능을 보임을 검증하였다.
이미지 묘사 기법에 대한 조사
http://doi.org/10.5626/JOK.2023.50.3.210
딥러닝의 발전과 함께 주목받고 있는 이미지 묘사 기술은 이미지 속 내용을 파악하는 컴퓨터 비전 분야와 문장으로 번역하는 자연어 처리 분야의 기술이 복합적으로 사용된다. 본 논문에서는 이미지 묘사 기술에 대한 연구를 3가지 카테고리(템플릿 기반의 방법, 시각적/의미적 유사도 검색 기반의 방법, 딥러닝 기반의 방법)로 정리한 후, 그 성능을 비교한다. 성능 비교를 통해서 우수한 성능을 보이는 모델의 특징이 무엇인지 파악함으로써 앞으로의 연구 방향을 제시하려고 한다. 또한, 최근 대부분의 방법론에서 사용하고 있는 딥러닝이 실제로 이미지 묘사 모델에서 우수한 성능을 보이는지도 살펴본다. 이런 과정을 통해, 지금까지의 이미지 묘사 기술에 대해 전반적인 내용을 정리하는 것을 목표로 한다. 각 연구의 성능은 일반적으로 많이 사용되는 Flickr30K, MS COCO 데이터셋에 대한 METEOR, BLEU 점수를 비교하고, 이에 대한 결과를 제공하지 않는 경우에는 테스트 이미지와 이에 대해 생성된 문장을 확인한다.
연속된 이미지에서 중심점과 변위 추정을 통한 비디오 객체 탐지 네트워크
http://doi.org/10.5626/JOK.2022.49.6.416
규모가 큰 컨테이너와 물류 기계와 같은 다양한 장애물이 배치되어 있으며, 공간이 넓어 한 번에 감시하기 어려운 항만과 같은 환경에서, 높은 지점에 설치된 CCTV에서 촬영한 작은 크기의 보행자부터 항만 차량 객체까지 훨씬 더 정확하게 탐지하기 위한 객체 탐지 방법을 연구하였다. 형상이 불명확하고 작은 크기의 객체를 학습해야 하기 때문에 고해상도의 정보가 필요하므로 앵커-프리 방식의 네트워크인 CenterNet을 기반으로 훈련하였으며, 매우 작은 객체의 정보를 보완하기 위해 이미지의 한 장씩만 훈련시키는 것이 아니라 연속된 이미지를 여러 장 쌓아 학습하였고, 부족한 데이터셋 문제를 여러 개의 데이터셋을 함께 사용하고 여러 장의 정지 이미지를 랜덤으로 뽑아 하나의 이미지로 만들어 연속된 이미지로 가공하는 데이터 증강을 통해 해결하여 과적합을 방지하였다.
영상기반 주차공간 분류 딥 모델을 위한 데이터 증강기법
http://doi.org/10.5626/JOK.2022.49.2.126
초음파 센서 또는 카메라를 이용한 주차 점유상태 판단 시스템이 실내 주차장 위주로 많이 사용되고 있다. 그러나 실외 주차장의 경우, 이러한 시스템들의 높은 설치 비용과 정확도 문제로 도입에 한계가 있다. 또한, 조명 상태, 카메라 위치, 그리고 지형지물의 다양성으로 인해 대표성을 가지는 학습데이터 확보에 어려움이 있어 딥러닝 적용이 제한된다. 본 논문에서는 이러한 데이터 부족 상황에서 증강기법들이 주차상태 분류를 위한 딥 모델 성능에 미치는 영향을 분석한다. 이를 위해, 주차구역 영상을 상황별로 분류하고, 네 가지 증강기법들을 ResNet, EfficientNet 그리고 MobileNet의 학습에 적용하였다. 성능평가 결과, mixup, stopper, rescaling 방법에서 각각 최대 5.2, 8.67, 15.44% 포인트 정확도가 향상되었다. 반면에, 다른 연구들에서 성능 향상 효과가 있었던 center crop의 경우 정확도가 평균 4.86% 포인트 하락하였다.
Boosting Image Caption Generation with Parts of Speech
Philgoo Kang, Yubin Lim, Hyoungjoo Kim
http://doi.org/10.5626/JOK.2021.48.3.317
일상 생활 속에서의 스마트 기기와 AI에 대한 의존도가 높아지면서, 시각 장애인 보조, 인간컴퓨터 상호 작용 등 다양한 분야에 접목 가능한 이미지 캡션 생성 기술의 중요성이 높아지고 있다. 본 논문에서는 캡션 생성 기능의 향상을 위해 명사, 동사와 같은 언어의 품사(POS) 정보를 이미지로부터 추출하여 활용하는 새로운 기법을 제안한다. 제안하는 모델은 복수의 CNN 인코더를 품사 별로 학습하여 품사별 특징 벡터를 추출한 후, 추출한 품사 벡터를 LSTM에 입력하여 캡션을 생성한다. 제안한 모델은 Flickr30k, MS-COCO 데이터 셋에 대해 실험을 진행하며, 사람을 대상으로 2가지 설문 조사를 진행하여 결과물의 실질적인 유효성을 검증한다.
깊이 정보 재구성 및 물체의 사전 지식에 기반한 물체를 쥔 손의 자세 추적
http://doi.org/10.5626/JOK.2019.46.7.673
본 논문은 깊이 데이터 재구성 및 대상 물체에 대한 사전 지식을 활용하여 실제 물체를 쥔 손의 26차원 관절 자세를 추적하는 시스템을 제안한다. 물체와 상호작용하는 손에 대한 자세 추적은 물체에 의한 가림 때문에 허공의 독립된 손 자세를 추적하는 문제에 비해 제약이 크다. 기존 대부분의 손 추적연구들은 물체에 가려진 손 데이터를 무시하고 나머지 불충분한 입력 정보에서 최대한 정확한 자세를 추적하는 데에 초점을 두었으며, 물체와 상호작용한다는 사실이 손 자세 추정 탐색 공간을 효율적으로 줄일 수 있다는 점을 충분히 활용하지 못하였다. 본 논문에서 제안한 시스템은 가려진 손 영역의 깊이 데이터를 쥐고 있는 물체의 형태에 따라 재구성하고 입자 군집 최적화(PSO) 기법에 기반한 모델 추적기에 활용하되, 사전에 구성된 물체별 손 자세 군집을 모델 자세의 재초기화에 이용하는 방식이다. 그 결과 제안된 프로세스들이 물체를 쥔 손 자세 추적 성능을 향상시킴을 실험 평가를 통해 확인하였다.
웹 페이지 스케치기반 HTML코드 자동생성
http://doi.org/10.5626/JOK.2019.46.1.9
웹 응용 개발에서 GUI 스케치를 자동으로 코드화하려는 다양한 연구가 진행되어왔다. 과거 연구에서는 컴퓨터 비전을 이용한 객체의 위치인식 연구와 딥 러닝을 기반으로 한 객체인식 연구가 진행되었다. 과거 연구는 객체를 잘못 인식하거나 아예 인식하지 못한다는 한계가 존재한다. 본 논문에서는 두 가지 기술을 함께 적용하여 기존 객체 인식의 한계를 줄인다. 레이아웃 검출에 컴퓨터 비전을, GUI 객체인식은 딥 러닝을 적용한다. 이러한 기술들을 기반으로 인식한 레이아웃과 GUI객체를 HTML코드로 변환한다. 결과적으로 GUI객체 인식의 정밀도와 재현율은 각각 91%, 86%를 보였으며 HTML코드로 변환이 가능했다.