디지털 라이브러리[ 검색결과 ]
전이 학습과 어텐션(Attention)을 적용한 합성곱 신경망 기반의 음성 감정 인식 모델
http://doi.org/10.5626/JOK.2020.47.7.665
기존의 음성 기반 감정 인식 연구는 단일한 음성 특징값을 사용한 경우와 여러 가지 음성 특징값을 사용한 경우로 분류할 수 있다. 단일한 음성 특징값을 사용한 경우는 음성의 강도, 배음 구조, 음역 등 음성의 다양한 요소를 반영하기 어렵다는 문제가 있다. 여러 가지 음성 특징값을 사용한 경우에는 머신러닝 기반의 연구들이 다수를 차지하는데, 딥러닝 기반의 연구들에 비해 상대적으로 감정 인식 정확도가 낮다는 단점이 있다. 이러한 문제를 해결하기 위해 멜-스펙트로그램(Mel-Spectrogram)과 MFCC(Mel Frequency Cepstral Coefficient)를 음성 특징값으로 사용한 합성곱 신경망(Convolutional Neural Network) 기반의 음성 감정 인식 모델을 제안하였다. 제안하는 모델은 학습 속도 및 정확도 향상을 위해 전이학습과 어텐션(Attention)을 적용하였으며, 77.65%의 감정 인식 정확도를 달성하여 비교 대상들보다 높은 성능을 보였다.
SSD 방법을 이용한 Cut transition 검출 모델
http://doi.org/10.5626/JOK.2020.47.7.655
샷 경계 검출은 영상 콘텐츠 분석을 위한 필수적인 기술로 꾸준히 연구되고 있다. 본 논문에서는 기존 연구의 단점을 보완하고 Cut transition의 정확한 위치를 찾아내기 위해 SSD(Single Shot Multibox Detector) 방법을 이용한 종단간학습(End-to-End Learning) 모델을 제안한다. 여러 개의 Cut transition을 예측하기 위해 SSD의 다중 스케일 특징 맵(Multi-Scale Feature Map)과 Default box 개념을 적용하였으며, Cut transition의 특징 정보를 강화하기 위해 이미지 비교 방법 중 하나인 Image Concatenation 개념을 모델에 결합하였다. 제안하는 모델은 최신 연구와 비교하여 다시 레이블링을 한 ClipShots 데이터셋과 TRECVID 2007 데이터셋에서 각각 88.7%, 98.0%의 정확도를 보였다. 또한 기존의 딥러닝 모델보다 정답에 가까운 범위를 검출할 수 있었다.
특징점 배치의 기하학적 유사성을 이용한 GS-RANSAC
http://doi.org/10.5626/JOK.2020.47.3.283
증강 현실은 현실의 대상 위에 증강 객체를 표시하여 정보를 제공하는 것이 목적으로, 증강 객체의 좌표를 정확하게 계산하는 것이 핵심 기능이다. 증강 객체의 좌표를 계산하기 위해서는 두 이미지 간의 호모그래피 추정법을 이용하는데, 여기서 RANSAC(Random Sample Consensus)은 두 이미지에서 추출된 특징점 쌍 중에 적합한 4쌍을 선택하는 기능을 한다. 하지만 기존의 RANSAC의 경우 추출 과정에서 선택한 특징점의 배치가 두 이미지 간에서 기하학적으로 유사한지 보장할 수 없는 문제점이 존재한다. 본 논문에서는 이 문제점을 해결하기 위해 RANSAC에서 선택하는 특징점의 배치를 검사하는 방법을 제안한다. 제안하는 방법은 이미지 위에 특징점의 사각형을 그려서 정점의 순서와 내각의 분포를 각각 검사한다. 실험 결과 제안하는 알고리즘은 기존 RANSAC보다 결함률을 8.55% 줄였으며, 증강 객체를 보다 정확한 위치에 표시하였다. 우리는 제안하는 알고리즘을 통해 증강 현실에서 증강 객체 좌표의 정확도를 개선하였다.
Channel Attention과 그룹 컨볼루션을 이용한 효율적인 얼굴 감정인식 CNN
http://doi.org/10.5626/JOK.2019.46.12.1241
최근 얼굴 표정에서 감정을 인식하기 위한 문제에서 컨볼루션 신경망을 이용한 연구가 활발히 진행되고 있다. 본 논문에서는 사람의 얼굴 표정에서 나타나는 감정을 인식하기 위해 사용하는 딥 컨볼루션 신경망의 모델 복잡도(Complexity) 문제점을 해결한 효율적인 컨볼루션 신경망을 제안한다. 본 논문에서는 모델의 복잡도를 줄이기 위해 그룹 컨볼루션, 깊이별 분리 컨볼루션을 사용하여 파라미터 수와 연산량을 감소시키고 특징 연결을 위한 Skip Connection과 Channel Attention을 사용하여 특징의 재사용성과 채널 정보를 강화하였다. 제안하는 모델의 학습 파라미터 개수는 0.39 M(Million), 0.41 M으로 기존 모델에 비해 4배 이상 적은 수의 파라미터를 사용하여 FER2013, RAF-single 데이터셋에서 각각 70.32%, 85.23%의 정확도를 달성하였다.
Automatic Transformation of Korean Fonts using Unbalanced U-net and Generative Adversarial Networks
Pangjia, Seunghyun Ko, Yang Fang, Geun-sik Jo
http://doi.org/10.5626/JOK.2019.46.1.15
본 논문에서는 원문 폰트를 특정한 아날로그 폰트 스타일로 변환하는 타이포그래피 변환 문제에 대해 연구한다. 타이포그래피 변환 문제를 해결하기 위해 이 문제를 이미지와 이미지 번역 문제로 치환하고 GAN을 기반으로 한 언밸런스 형 u-net 아키텍처를 제안한다. 기존의 밸런스 형 u-net과는 달리 제안하는 아키텍처는 언밸런스 형 u-net을 포함한 두 개의 서브넷으로 구성된다. (1)언밸런스 형 u-net은의미 및 구조 정보를 유지하면서 특정 글꼴 스타일을 다른 스타일로 변환한다. (2) GAN은 L1 손실, 상수손실 및 원하는 목표 글꼴을 생성하는 데 도움이 되는 이진 GAN 손실을 포함하는 복합 손실 함수를 사용한다. 실험결과 제안하는 모델인 언밸런스 형 u-net이 밸런스 형 u-net 보다 cheat loss에서 빠른 수렴속도와 안정적인 트레이닝 손실을 보였고 generate loss에서 트레이닝 손실을 안정적으로 줄여서 모델 성능 하락 문제를 해결하였다.