디지털 라이브러리[ 검색결과 ]
데이터 생성 및 증강 기반의 개체 그래프를 활용한 음성 대화용 대화 상태 추적 모델
http://doi.org/10.5626/JOK.2022.49.10.891
대화 상태 추적은 목적 지향 대화 시스템의 한 부분으로, 대화를 이해하고 사용자의 목적을 이해하기 위해 수행되어야 하는 작업이다. 최근 Dialogue System Track Challenge (DSTC) 10 트랙2는 이를 음성 대화 환경으로 확장하여 음성 발화에 대한 대화 상태 추적 모델의 강건성을 주제로 진행되었다. 트랙2에서 공개한 평가 데이터는 새로운 시나리오의 등장, 3배 많은 개체 수 그리고 음성 인식된 발화로 이루어진 대화라는 특징을 가지고 있다. 본 논문에서는 이러한 데이터에도 강건한 개체 그래프를 활용한 추출 방식의 대화 상태 추적 모델과 새로운 시나리오에 대한 대화 데이터 생성 및 대화 익명화 방식을 활용한 증강 방법을 제안한다. DSTC10 평가 데이터에 대한 평가 결과 베이스라인 모델과 비교했을 때 Joint Goal Accuracy (JGA)와 Slot Accuracy에서 각각 1.7%, 0.57%의 성능 향상이 있음을 확인하였다.
사전 학습된 Encoder-Decoder 모델 기반 질의응답 쌍 생성을 통한 기계 독해 학습 데이터 증강 기법
http://doi.org/10.5626/JOK.2022.49.2.166
기계 독해 연구는 문서에서 질문에 대한 정답을 찾는 것으로 대규모 데이터가 필요하지만 개인 연구자나 소규모 연구 기관이 구축하는 것은 한계가 있다. 이에 본 논문은 사전 학습 언어모델을 활용한 기계 독해 데이터 증강 기법을 제안한다. 기계 독해 데이터 증강 기법은 질의응답 쌍 생성 모델과 데이터 검증 모델로 구성된다. 질의응답 쌍 생성 모델은 정답 추출 모델과 질문 생성 모델로 구성되며, 두 모델 모두 BART 모델을 미세 조정하여 구축하였다. 데이터 검증 모델은 증강 데이터의 신뢰성을 높이기 위해 별도로 추가하였으며, 증강 데이터의 활용 여부를 결정한다. 검증 모델은 ELECTRA 모델을 기계 독해 모델로 미세 조정하여 사용하였다. 증강 기법을 통한 모델 성능 개선을 확인하기 위해 KorQuAD v1.0 데이터에 증강 기법을 적용하였다. 실험 결과 기존 모델 대비 EM Score의 경우 최대 7.2 상승하였고 F1 Score는 최대 5.7 상승하는 유의미한 결과를 도출하였다.
영상기반 주차공간 분류 딥 모델을 위한 데이터 증강기법
http://doi.org/10.5626/JOK.2022.49.2.126
초음파 센서 또는 카메라를 이용한 주차 점유상태 판단 시스템이 실내 주차장 위주로 많이 사용되고 있다. 그러나 실외 주차장의 경우, 이러한 시스템들의 높은 설치 비용과 정확도 문제로 도입에 한계가 있다. 또한, 조명 상태, 카메라 위치, 그리고 지형지물의 다양성으로 인해 대표성을 가지는 학습데이터 확보에 어려움이 있어 딥러닝 적용이 제한된다. 본 논문에서는 이러한 데이터 부족 상황에서 증강기법들이 주차상태 분류를 위한 딥 모델 성능에 미치는 영향을 분석한다. 이를 위해, 주차구역 영상을 상황별로 분류하고, 네 가지 증강기법들을 ResNet, EfficientNet 그리고 MobileNet의 학습에 적용하였다. 성능평가 결과, mixup, stopper, rescaling 방법에서 각각 최대 5.2, 8.67, 15.44% 포인트 정확도가 향상되었다. 반면에, 다른 연구들에서 성능 향상 효과가 있었던 center crop의 경우 정확도가 평균 4.86% 포인트 하락하였다.
희소 데이터를 위한 강인 손실 함수를 이용한 준 지도 학습
http://doi.org/10.5626/JOK.2021.48.12.1343
이 논문에서는 데이터의 레이블이 매우 부족한 상황에서 데이터 증강기법과 강인 손실 함수를 사용하여 준 지도 학습을 하는 방법을 제안한다. 기존 데이터 증강기법을 사용하는 준 지도 학습 방법은 레이블이 없는 데이터를 증강하고, 그 중 신뢰도가 높은 데이터에 대해서만 현재 모델이 예측한 레이블을 원 핫 벡터로 붙여 학습에 사용한다. 그래서 신뢰도가 낮은 데이터는 사용하지 않는 문제가 있었는데, 이를 해결하기 위해 강인 손실 함수를 이용하여 신뢰도가 낮은 데이터 또한 사용하는 연구도 진행되었다. 한편, 레이블이 매우 적은 상황에서는 모델이 예측한 레이블은 신뢰도가 높더라도 부정확하다는 문제가 있다. 이 논문에서는 레이블이 매우 적은 상황에서 원 핫 벡터가 아닌 모델이 예측한 확률을 레이블로 사용함으로써 분류 모델의 성능을 높일 수 있는 방법을 제시한다. 또한 이미지 분류 문제에 대한 실험을 통하여 제시된 방법이 분류 모델의 성능을 향상시킴을 보여준다.
기계 독해 성능 개선을 위한 데이터 증강 기법
http://doi.org/10.5626/JOK.2021.48.12.1298
기계 독해(Machine Reading Comprehension)란 컴퓨터가 주어진 텍스트의 의미를 이해 및 이를 평가하는 방법으로, 자연어 이해를 위한 중요한 기술 중 하나이다. 주어진 글에 대해서 질의가 주어졌을 때, 이에 대한 올바른 응답을 찾는 질의-응답이 가장 대표적인 기계 독해 과제이다. 기계 독해 기술은 최근 심층 인공신경망 기반의 자연어 처리 기술의 발달에 따라 획기적인 성능 개선을 보였다. 그럼에도 불구하고, 주어진 데이터가 희소할 때 성능 개선에 어려움이 있을 수 있다. 이를 해결하기 위해 본 논문에서는 단어 단위 및 문장 단위의 텍스트 편집을 통한 데이터 증강 기법을 활용하여 기존 모델의 변경을 최소화하며 성능 개선을 하고자 한다. 즉, 본 연구에서는 영어 질의응답 데이터에서 가장 널리 활용되고 있는 사전 학습된 언어 모델 기반의 기계 독해 모델에 데이터 증강 기법을 적용하여 기존 모델 대비성능이 향상되는 것을 확인하였다.
적은 자원의 흉부 X-ray 분류 성능 향상을 위한 데이터 증강과 결합한 약지도 학습
http://doi.org/10.5626/JOK.2021.48.9.1027
딥러닝 기반의 의료영상 분석기술은 방사선 전문의의 판독 능력을 능가하는 정확도를 보일 정도로 발전하였다. 하지만, 의료영상 학습에 사용하는 샘플 데이터를 만드는 것(labeling)은 전문가가 필요한 영역이고 큰 비용과 시간이 소요된다. 또한, 많은 경우에 의료영상의 훈련용 데이터는 질환별로 불균형한 분포를 가진다. 예를 들어, 흉부 X-ray 분류 학습을 위한 ChestX-ray14 데이터셋의 경우, 침윤(infiltration)과 탈장(hernia)의 데이터 분포의 차이는 87배에 이른다. 본 연구에서는 불균형한 흉부 X-ray 분류의 성능 향상을 위하여 데이터 증강(data augmentation) 알고리즘인 Mixup과 약지도 학습(weakly supervised learning)을 결합하는 방법을 제안한다. 제안하는 방법은 데이터 불균형 완화를 위하여 적은 수의 레이블이 있는 데이터와 다수의 레이블이 없는 데이터에 복합적으로 Mixup 알고리즘을 적용하고, 교사 모델(teacher model)과 학생 모델(student model)을 순환하면서 레이블이 없는 데이터를 효과적으로 활용하는 커리큘럼 학습(curriculum learning)을 수행하는 것이다. 의료 현장에서 생각할 수 있는 적은 수의 레이블이 있는 데이터(labeled data)와 레이블이 없는 데이터(unlabeled data)가 존재하는 환경을 구성하여 실험을 수행한 결과 데이터 증강과 약지도 학습을 결합함으로써 분류 성능이 향상됨을 보였으며, 순환적인 커리큘럼 학습이 효과가 있음을 확인하였다.
적대적 생성 신경망을 이용한 얼굴 감정인식 데이터 증강
http://doi.org/10.5626/JOK.2021.48.4.398
컴퓨터 비전의 얼굴 감정인식 분야는 딥러닝의 다양한 신경망을 통해 최근 의미있는 행보를 보이고 있다. 그러나 주요하게 사용되는 데이터셋들은 “클래스 불균형”이라는 문제를 안고 있고 이는 딥러닝 모델의 정확도를 하락시키는 요인이 된다. 그러므로 클래스 불균형이라는 문제를 해소하기 위한 연구들이 활발하게 진행되고 있다. 본 논문에서는 얼굴 감정인식 데이터셋으로 사용되는 FER2013, RAF_single 데이터셋의 클래스 불균형을 해소하기 위해 적대적 생성 신경망을 이용한 얼굴 감정인식 데이터 증강 모델인 “RDGAN”을 제안한다. RDGAN은 기존 이미지 간 변환을 위한 적대적 생성 신경망을 바탕으로 표현 판별자를 추가하여 기존 연구보다 클래스에 적합한 이미지를 생성 및 변환하는 네트워크이다. RDGAN으로 증강된 데이터셋은 데이터 증강을 하지 않은 데이터셋과 비교하여 FER2013과 RAF_single에서 각각 평균 4.805%p, 0.857%p의 성능 향상을 보였다.
불확실한 환경에서의 이미지 분류 성능 향상을 위한 Mix Channel Split 데이터 증강 기법
http://doi.org/10.5626/JOK.2020.47.6.568
본 논문에서는 이미지 분류 모델의 불확실한 환경에서의 이미지 분류 능력 향상을 위해 이미지의 RGB채널 분리를 통한 새로운 데이터 증강 기법을 제안한다. 지금까지 제안된 데이터 증강 기법들은 이미지 분류 능력 향상에는 효과를 보이나, 불확실한 환경에서의 성능 향상은 없었다. 이러한 문제를 해결하기 위해 본 논문에서는 이미지의 RGB채널을 분리하여 다시 재조합 하는 ChannelSplit과 더 많은 다양성을 표현하기 위해 MixUp[1,2]의 개념을 채용한 Mix ChannelSplit을 제안한다. 본 논문에서 제안한 ChannelSplit과 Mix ChannelSplit은 다른 이미지 연산 없이 채널만을 이용한 기법임으로 ChannelAug로 통칭하도록 한다. 본 논문에서는 제안된 기법을 이용해 학습 이미지의 다양성을 증가시키고 모델의 불확실한 환경에서의 이미지 분류 능력 향상이 있음을 기존 데이터 증강 기법들과 비교하여 보인다.