디지털 라이브러리[ 검색결과 ]
전이 학습과 어텐션(Attention)을 적용한 합성곱 신경망 기반의 음성 감정 인식 모델
http://doi.org/10.5626/JOK.2020.47.7.665
기존의 음성 기반 감정 인식 연구는 단일한 음성 특징값을 사용한 경우와 여러 가지 음성 특징값을 사용한 경우로 분류할 수 있다. 단일한 음성 특징값을 사용한 경우는 음성의 강도, 배음 구조, 음역 등 음성의 다양한 요소를 반영하기 어렵다는 문제가 있다. 여러 가지 음성 특징값을 사용한 경우에는 머신러닝 기반의 연구들이 다수를 차지하는데, 딥러닝 기반의 연구들에 비해 상대적으로 감정 인식 정확도가 낮다는 단점이 있다. 이러한 문제를 해결하기 위해 멜-스펙트로그램(Mel-Spectrogram)과 MFCC(Mel Frequency Cepstral Coefficient)를 음성 특징값으로 사용한 합성곱 신경망(Convolutional Neural Network) 기반의 음성 감정 인식 모델을 제안하였다. 제안하는 모델은 학습 속도 및 정확도 향상을 위해 전이학습과 어텐션(Attention)을 적용하였으며, 77.65%의 감정 인식 정확도를 달성하여 비교 대상들보다 높은 성능을 보였다.
SSD 방법을 이용한 Cut transition 검출 모델
http://doi.org/10.5626/JOK.2020.47.7.655
샷 경계 검출은 영상 콘텐츠 분석을 위한 필수적인 기술로 꾸준히 연구되고 있다. 본 논문에서는 기존 연구의 단점을 보완하고 Cut transition의 정확한 위치를 찾아내기 위해 SSD(Single Shot Multibox Detector) 방법을 이용한 종단간학습(End-to-End Learning) 모델을 제안한다. 여러 개의 Cut transition을 예측하기 위해 SSD의 다중 스케일 특징 맵(Multi-Scale Feature Map)과 Default box 개념을 적용하였으며, Cut transition의 특징 정보를 강화하기 위해 이미지 비교 방법 중 하나인 Image Concatenation 개념을 모델에 결합하였다. 제안하는 모델은 최신 연구와 비교하여 다시 레이블링을 한 ClipShots 데이터셋과 TRECVID 2007 데이터셋에서 각각 88.7%, 98.0%의 정확도를 보였다. 또한 기존의 딥러닝 모델보다 정답에 가까운 범위를 검출할 수 있었다.
CNN과 주파수 대역 특성을 활용한 신호 세기 기반 Wi-Fi 채널 탐지 방법 연구 및 그 활용
http://doi.org/10.5626/JOK.2020.47.3.335
모바일 기기에 있어 Wi-Fi 채널 스캔은 인터넷 접속을 개시하여 원활한 서비스 이용을 가능케하고, 연결 수립 이후에도 주기적으로 발생하여 안정적인 링크 유지를 지원하는 필수적인 작업이다. 하지만 불필요한 채널까지 탐색하는 비효율적인 동작은 자원의 낭비와 성능 저하를 초래한다. 본 논문에서는 저전력 안테나로 수집한 주파수 대역 신호 세기의 특성을 CNN을 통해 학습하고, 이에 기반하여 빠르고 정확한 Wi-Fi 채널 탐지 방법을 제안한다. 실험을 통해 다양하게 분포한 AP에 대해 높은 채널 탐지 정확도를 보였고, 이를 기존 Wi-Fi의 스캔 동작 보조에 활용할 시 기대되는 성능 향상을 분석하였다.
교통 혼잡 원인과 영향을 분석하기 위한 시각적 분석 기술
http://doi.org/10.5626/JOK.2020.47.2.195
본 논문에서는 교통 흐름 이론을 기반으로 교통 혼잡의 원인을 분석하는 기술을 제시한다. 우리는 GPS 궤적 및 차량 감지기 데이터(VD)와 같은 교통 데이터에서 차량의 흐름을 추출한다. 또한 우리는 교통 데이터에 정보이론의 엔트로피를 사용하여 차량의 흐름 변화를 식별한다. 그런 다음 혼잡 지역의 차량 흐름을 정량화할 수 있는 누적 차량 수 커브(N-curve)를 추출한다. 교통 흐름 이론에 따르면 혼잡유형에 따라 고유한 N-curve 패턴을 관찰할 수 있다. 우리는 N-curve를 네 가지의 혼잡 패턴으로 분류할 수 있는 합성곱 신경망을 설계한다. 교통 혼잡의 원인과 영향을 분석하는 것은 어렵고 상당한 경험과 지식이 필요하다. 따라서 논문에서는 교통 혼잡의 원인과 영향을 분석하기 위한 일련의 프로세스를 효율적으로 수행할 수 있는 시각적 분석 시스템을 제시한다. 논문에서는 두 가지의 사례 연구를 통해 교통 혼잡의 원인을 분석할 수 있는 시스템을 평가한다.
K-means 클러스터링 방법과 유사도 측정 기반의 채팅 말뭉치 반자동 확장 방법
http://doi.org/10.5626/JOK.2019.46.5.440
본 논문에서는 영화 자막, 극 대본과 같이 대량의 발화 데이터를 이용하여 채팅 말뭉치를 반자동으로 확장하는 방법을 제안한다. 채팅 말뭉치 확장을 위해 미리 구축된 채팅 말뭉치와 유사도 기법을 이용하여 채팅 유사도를 구하고, 채팅 유사도가 실험을 통해 얻은 임계값보다 크다면 올바른 채팅 쌍이라고 판단하였다. 본 논문에서 제안하는 것은 형태소 단위 임베딩 벡터와 합성곱 신경망 모델을 이용하여 발화 단위 표상을 생성하는 것이다. 그리고 반자동 구축 모델의 속도를 개선하기 위해서 K-means 클러스터링 방법을 적용하여 채팅 말뭉치를 군집, 계산량을 줄일 것을 제안한다. 그 결과 기본 발화 단위 표상생성 방법인 TF를 이용하는 것보다 정확률, 재현율, F1에서 각각 5,16%p, 6.09%p, 5.73%p 각각 상승하여 61.28%, 53.19%, 56.94%의 성능을 도출하였다. 그리고 속도 개선을 위해 발화를 클러스터링하여 속도 면에서도 103배 향상된 채팅 말뭉치 반자동 구축 모델을 구축할 수 있었다.
합성곱 신경망을 위한 Elastic Multiple Parametric Exponential Linear Units
http://doi.org/10.5626/JOK.2019.46.5.469
활성화 함수는 신경망 모델의 비선형성과 깊이를 결정하는 중요한 요소이다. Rectified Linear Units (ReLU)가 제안된 이후, 평균값을 0에 가깝게 하여 학습의 속도를 높인 Exponential Linear Units (ELU)나 함수 기울기에 변화를 주어 성능을 향상시킨 Elastic Rectified Linear Units (EReLU)같은 다양한 형태의 활성화 함수가 소개되었다. 우리는 서로 다른 ELU와 EReLU를 일반화한 형태의 활성화 함수인 Elastic Multiple Parametric Exponential Linear Units (EMPELU)를 제안한다. EMPELU는 양수 영역에서는 임의의 범위로 기울기 변동을 주면서, 음수 영역은 학습 파라미터를 이용해 다양한 형태의 활성화 함수를 형성하도록 하였다. EMPELU는 합성곱 모델 기반 CIFAR-10/100의 이미지 분류에서 기존 활성화 함수에 비해 정확도 및 일반화에서 향상된 성능을 보였다.
Self-Attention을 활용한 Siamese CNN-Bidirectional LSTM 기반 문장 유사도 예측
http://doi.org/10.5626/JOK.2019.46.3.241
본 논문에서는 입력된 두 문장의 유사도를 측정하는 딥러닝 모델을 제안한다. 기존의 문장의 유사도 측정 모델에는 단어 혹은 형태소 단위로 문장을 분해하여 임베딩 하는 방식을 활용한다. 하지만 이는 사전의 크기를 증가시켜 모델의 복잡도를 높이는 문제점이 있다. 본 논문에서는 문장을 음소 단위로 분해하여 모델 복잡도를 줄이고 해당 음소를 묶어주는 다양한 필터 사이즈의 1D Convolution Neural Network와 Long Short Term Memory(LSTM)을 결합한 Siamese CNN-Bidirectional LSTM 모델을 제안한다. 본 모델을 평가하기 위해 네이버 지식인 데이터를 활용하여 기존의 문서 유사 측정에서 좋은 성능을 보이는 모델 Manhattan LSTM(MaLSTM)과 비교하였다.
CNN 기반 관계 추출 모델의 성능 향상을 위한 다중-어의 단어 임베딩 적용
http://doi.org/10.5626/JOK.2018.45.8.816
관계 추출이란 문장 내 두 개체간의 관계를 분류하는 것으로, 많은 연구들이 관계추출 모델을 설계함에 있어 원격 지도학습 방식을 이용하고 있다. 그리고 최근 딥러닝의 발전으로 다양한 연구에서 관계 추출 모델 설계 시 CNN 또는 RNN 등의 딥러닝 모델을 적용하는 것이 주요 흐름으로 발전하고 있다. 그러나 기존 연구들에서는 모델 학습의 입력으로 사용되는 단어 임베딩의 동형이의어 문제를 해결하지 않았다는 단점이 있다. 따라서 서로 다른 의미를 가진 동형이의어가 하나의 임베딩 값으로 모델 학습이 진행되고, 그에 따라 단어의 의미를 정확히 파악하지 못한 채 관계 추출 모델을 학습한다고 볼 수 있다. 본 연구에서는 다중-어의 단어 임베딩을 적용한 관계 추출 모델을 제안한다. 다중-어의 단어 임베딩 학습을 위해 CoreNet Concept 기반의 어의 중의성 해소 모듈을 활용하였고, 관계추출 모델은 문장 내 주요 키워드를 스스로 학습하는 CNN 모델과 PCNN 모델 2가지를 활용하였다.
합성곱 신경망과 영상 개선 신경망을 이용한 저해상도 영상 객체 인식
http://doi.org/10.5626/JOK.2018.45.8.831
최근 합성곱 신경망을 비롯한 심층 학습 기술의 발전으로 영상에서의 객체 인식의 성능이 월등히 향상되었다. 하지만 객체 인식은 영상에 포함된 다양한 변형과 인식 대상이 되는 객체의 다양성 등으로 여전히 정복하기 어려운 문제들이 남아있다. 특히 저해상도 영상에서의 객체 인식에 관한 연구는 아직 초기 단계로 만족할 만한 성능을 보이지 못하고 있다. 본 논문에서는 저해상도 영상에서의 객체 인식 성능을 향상시키기 위한 영상 개선 신경망을 제안하고 이로부터 획득한 영상을 합성곱 신경망 기반의 객체인식 모델의 학습 및 인식에 추가적으로 활용함으로써 해상도 변화에 강건한 객체 인식 방법을 제안한다. 제안하는 방법의 효율성을 확인하기 위해 CIFAR-10 데이터베이스와 CIFAR-100 데이터베이스를 사용하여 저해상도 환경에서의 객체 인식 성능을 측정하였고, 제안하는 방법이 저해상도 객체 인식 성능을 향상시킴과 동시에 고해상도 객체 인식 성능도 안정적으로 유지하는 것을 확인하였다.