검색 : [ keyword: Semantic segmentation ] (6)

자기 교사 학습 모델의 특장점 분석과 사진 분류 및 객체 탐지 성능 분석 연구

윤의현, 이현종, 김동건, 박주찬, 김진규, 이재구

http://doi.org/10.5626/JOK.2024.51.7.609

최근, 교사 학습 기반의 인공지능 분야가 급속도로 발전하고 있다. 그러나 교사 학습은 정답 값이 지정된 데이터집합에 의존하기 때문에, 정답 값을 확보하기 위한 비용이 커진다. 이러한 문제점을 해 결하기 위해 정답 값없이 사진의 일반적인 특징을 학습할 수 있는 자기 교사 학습(Self-supervised learning)이 연구되고 있다. 본 논문에서는 다양한 자기 교사 학습 모델을 학습 방식과 백본 네트워크 기 준으로 분류하고, 각 모델의 장단점, 성능을 비교 분석하였다. 성능 비교를 위해 사진 분류 작업을 사용하 였다. 또한 전이 학습의 성능을 비교하기 위해 세밀한 예측 과업의 성능 또한 비교 분석하였다. 그 결과, 긍정적 쌍만 사용하는 모델이 노이즈를 최소화하여 부정적인 쌍을 같이 사용하는 모델들보다 높은 성능을 달성하였다. 또한 세밀한 예측의 경우 이미지를 마스킹하여 학습하거나 멀티스테이지 모델 등을 활용하여 지역적인 정보를 추가로 학습하는 방식이 더욱 높은 성능을 달성한 것을 확인하였다.

시멘틱 세그멘테이션 도메인 적응 향상을 위한 거대 영상-언어 모델 기반 수도 라벨 보정 기법

임정기, 김유성

http://doi.org/10.5626/JOK.2024.51.5.464

현실에서 획득한 이미지에 대해 시멘틱 세그멘테이션 라벨을 만드는 것은 매우 비용이 많이 든다. 비지도 도메인 적응에서는 이러한 문제를 해결하기 위해 라벨을 쉽게 수집할 수 있는 가상 환경에서 생성된 데이터 혹은 이미 라벨이 확보된 데이터와 라벨이 없는 현실에서 획득한 이미지를 활용하여 모델 을 학습시킨다. 비지도 도메인 적응에서 흔히 나타나는 문제 중 하나는 유사한 사물 클래스를 쉽게 혼동한 다는 것이다. 본 논문에서는 거대 영상-언어 모델을 활용하여 타겟 데이터의 수도 라벨을 보정하는 방법 을 제안한다. 타겟 이미지에 대해 생성되는 수도 라벨을 보다 정확하게 만들면 사물 클래스 간의 혼동을 줄일 수 있다. 제안된 방법은 DAFormer의 성능을 게임에서 현실로의 적응에서 +1.1 mIoU, 낮에서 밤으 로의 적응에서 +1.1 mIoU 향상시켰다. 사물 클래스에 대해 MIC의 성능을 게임에서 현실로의 적응에서 +0.6 mIoU, 낮에서 밤으로의 적응에서 +0.7 mIoU 향상시켰다.

TwinAMFNet: 3차원 시맨틱 세그멘테이션을 위한 Twin 어텐션 기반 멀티모달 퓨전 네트워크

윤재근, 전지연, 송광호

http://doi.org/10.5626/JOK.2023.50.9.784

최근 자율주행에서 오인식으로 인한 충돌 사고가 증가함에 따라 멀티 모달 센서를 활용한 센서 퓨전 기반의 3차원 시맨틱 세그멘테이션에 관한 관심이 늘어나고 있다. 이에 따라 본 연구에서는 카메라와 LiDAR의 센서 퓨전을 통해 새로운 3차원 시맨틱 세그멘테이션 신경망인 TwinAMFNet을 소개한다. 제안하는 신경망은 RGB 영상과 2차원의 좌표 평면에 사영한 점 군 사영 영상을 처리하는 Twin 신경망을 포함하며 인코더 및 디코더에서의 특징 단계 퓨전을 위한 어텐션 기반 퓨전 모듈을 통해 더욱 확장된 객체 및 경계 구분에 대한 표현력 개선을 보여준다. 결과적으로 제안한 신경망은 mIoU를 기준으로 3차원 시맨틱 세그멘테이션에 약 68%의 성능을 기록하였으며 기존 연구들에 비해 약 4.5% 이상 향상된 성능을 보였다.

고해상도 지도 생성을 위해서 ERF를 고려한 GAN

이기언

http://doi.org/10.5626/JOK.2019.46.2.122

본 논문은 고해상도 이미지 변환에 적합한 GAN(Generative Adversarial Network)의 네트워크 구조를 제안한다. 고해상도 이미지 변환에 필수적인 해상도와 분류 관계를 분석하기 위해 각 인코더들의 effective receptive fields의 크기를 계산하고, 새롭게 connection imbalance fields를 정의한다. 인코더와 디코더 간을 patch 단위로 연결하여 전체 층 수를 줄임으로써 적절한 effective receptive fields와 매개변수 사용 가능성을 실험을 통해 확인한다. 고해상도 이미지 변환 시에 해상도와 분류를 동시에 제공하기 어려운 문제를 개선하기 위해 고해상도 위성 사진을 변환할 수 있는 네트워크 구조를 실험적으로 제시한다. 또한 제시된 네트워크와 기존 네트워크의 receptive fields 크기를 비교 분석하여, 해상도와 분류를 동시에 향상시키는 네트워크 구조에 대한 타당성을 확인한다. 그리고, 제시된 네트워크와 기존의 네트워크를 이미지 유사도 분석 방법인 SSIM을 통해서 객관적 수치를 통해 비교함으로써 제안된 구조의 적합성을 정량적으로 검증한다.

임베디드 보드에서 실시간 의미론적 분할을 위한 심층 신경망 구조

이준엽, 이영완

http://doi.org/10.5626/JOK.2018.45.1.94

본 논문은 자율주행을 위한 실시간 의미론적 분할 방법으로 최적화된 심층 신경망 구조인 Wide Inception ResNet (WIR Net)을 제안한다. 신경망 구조는 Residual connection과 Inception module을 적용하여 특징을 추출하는 인코더와 Transposed convolution과 낮은 층의 특징 맵을 사용하여 해상도를 높이는 디코더로 구성하였고 ELU 활성화 함수를 적용함으로써 성능을 올렸다. 또한 신경망의 전체 층수를 줄이고 필터 수를 늘리는 방법을 통해 성능을 최적화하였다. 성능평가는 NVIDIA Geforce gtx 1080과 TX1 보드를 사용하여 주행환경의 Cityscapes 데이터에 대해 클래스와 카테고리별 IoU를 평가하였다. 실험 결과를 통해 클래스 IoU 53.4, 카테고리 IoU 81.8의 정확도와 TX1 보드에서 640×360, 720×480 해상도 영상처리에 17.8fps, 13.0fps의 실행속도를 보여주는 것을 확인하였다.

Investigating the Feature Collection for Semantic Segmentation via Single Skip Connection

Jonghwa Yim, Kyung-Ah Sohn

http://doi.org/10.5626/JOK.2017.44.12.1282

최근 심층 컨볼루션 신경망을 활용한 이미지 분할과 물체 위치감지 연구가 활발히 진행되고 있다. 특히 네트워크의 최상위 단에서 추출한 특징 지도뿐만 아니라, 중간 은닉 층들에서 추출한 특징 지도를 활용하면 더욱 정확한 물체 감지를 수행할 수 있고 이에 대한 연구 또한 활발하게 진행되고 있다. 이에 밝혀진 경험적 특성 중 하나로 중간 은닉 층마다 추출되는 특징 지도는 각기 다른 특성을 가지고 있다는 것이다. 그러나 모델이 깊어질수록 가능한 중간 연결과 이용할 수 있는 중간 층 특징 지도가 많아지는 반면, 어떠한 중간 층 연결이 물체 분할에 더욱 효과적일지에 대한 연구는 미비한 상황이다. 또한 중간층 연결 방식 및 중간층의 특징 지도에 대한 정확한 분석 또한 부족한 상황이다. 따라서 본 연구에서 최신 깊은 신경망에서 중간층 연결의 특성을 파악하고, 어떠한 중간 층 연결이 물체 감지에 최적의 성능을 보이는지, 그리고 중간 층 연결마다 특징은 어떠한지 밝혀내고자 한다. 그리고 이전 방식에 비해 더 깊은 신경망을 활용하는 물체 분할의 방법과 중간 연결의 방향을 제시한다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr