디지털 라이브러리[ 검색결과 ]
대화 요약 생성을 위한 한국어 방송 대본 데이터셋의 구축 및 검증
김봉수, 김지윤, 최승호, 전현규, 전혜진, 정혜인, 장정훈
http://doi.org/10.5626/JOK.2024.51.4.311
대화 요약은 다중 발화자와 발화문으로 이루어진 멀티턴 형식의 문서에 대해 핵심 내용을 추출하거나 생성하는 태스크이다. 대화 요약 모델은 추천, 대화 시스템 등에 콘텐츠, 서비스 기록에 대한 분석을 제공하는데 유용하다. 본 논문에서는 생성 기반 대화 요약을 위한 데이터셋을 제안한다. 이를 위해 국내 방송사의 대용량 콘텐츠로부터 원천 데이터를 수집하고, 주석자가 수작업으로 주석 하였다. 구축된 데이터셋 규모는 6개 카테고리에 대해 약 100,000건이며, 요약문은 단문장, 세문장, 2할문장으로 구분되어 주석 되었다. 본 논문에서는 데이터의 특성을 내재화하고 통제할 수 있도록 대화 요약 주석 가이드를 제안한다. 또한 모델 적합성 검증에 사용될 모델 구조의 선정 방식을 제시함으로써, 데이터 특성을 고려한 모델 개선 방향에 대한 통찰력을 제공한다. 실험을 통해 구축된 데이터의 여러 특성을 조명하고, 후속 연구를 위한 기준 성능을 제시한다. 데이터와 베이스라인 모델은 aihub.or.kr에 배포 되었다.
데이터셋 품질 개선을 위한 Self-Supervised Vision Transformer 기반의 객체 Pseudo-label 생성 기법
http://doi.org/10.5626/JOK.2024.51.1.49
이미지 분할은 이미지에 존재하는 객체를 객체 상자로 지역화하고 픽셀을 적절한 범주로 분류하는 컴퓨터 비전의 중요한 분야 중 하나이다. Instance segmentation 모델의 성능을 위해서는 다양한 크기의 객체에 대한 라벨을 가진 데이터셋이 요구된다. 하지만 최근 공개된 ‘Small Object Detection을 위한 이미지’ 데이터셋은 크기가 크고 일반적인 객체에 대한 라벨이 부족하여 잠재적 성능 저하를 유발한다. 본 논문에서는 위와 같은 문제를 해결하기 위해 비지도 학습 기반의 pseudo-labeling 방법론을 응용하여 일반적인 객체에 대한 pseudo-label을 생성함으로써 데이터셋의 품질을 개선한다. 실험결과, 기존 데이터셋 대비 작은 객체 분할 성능이 (+2.54 AP) 증가하였다. 추가적으로 적은 양의 데이터를 이용한 경우에서도 성능의 증가도 확인할 수 있었다. 이에 따라 제안된 방법론을 통해 효과적으로 데이터셋의 품질이 개선된 것을 확인할 수 있었다.
협동 로봇 모션 결함 데이터셋 구축을 위한 비전 기반 위치 편차 모의 결함 주입 방법
http://doi.org/10.5626/JOK.2023.50.9.795
스마트팩토리의 핵심 설비인 협동 로봇에는 기기의 고장을 진단하기 위해 내부, 외부 센서로부터 데이터를 실시간으로 수집하고 결함을 예측하는 데이터 기반 결함 진단 방법이 도입되고 있다. 데이터 기반 결함 진단 방법은 학습을 위한 많은 양의 데이터가 필요하며, 특히 결함 상태로 레이블링된 대량의 데이터가 필수적으로 요구된다. 그러나, 산업 현장에서 실제 결함 데이터를 대량으로 얻기 어렵다. 따라서 본 논문에서는 비전 센서를 기반으로 협동 로봇 결함 상태의 출력을 정상 상태의 출력을 비교 분석하고, 분석된 출력 신호간의 편차를 바탕으로 모의 결함 주입 방법을 제안한다. 실제 결함 상태에서 수집된 협동 로봇 데이터는 제안하는 모의 결함 주입 상태에서 수집된 데이터로 대체 가능하다. 결함 주입 데이터로 학습된 모델의 성능과 실제 결함 데이터로 학습된 모델의 성능 비교 결과, 정확도의 경우 평균 0.97, 0.98로 차이가 거의 없음을 확인하여 제안하는 결함 주입 방법의 효용성을 검증하였다.
Epoch Score: 정량적 데이터 품질 평가
http://doi.org/10.5626/JOK.2023.50.3.250
데이터셋이 모델이나 특정 분야에 적합한지, 혹은 데이터에 오류가 어느 정도인지 판단하는 것은 매우 어렵다. 이에 본 논문은 시드만 다른 하이퍼파라미터를 통한 수차례 학습을 통해 얻은 오답 데이터들을 활용하여 해당 샘플의 학습 난이도를 점수로 나타내는 에폭 스코어(Epoch Score)를 제안한다. 이를 통해 KLUE의 Topic Classification 데이터셋을 검증하였고, 오류가 있다고 판단되는, 점수가 높은 데이터를 수정함으로써 약 0.8%의 성능 향상을 이끌어 냈다. 에폭 스코어는 자연어, 이미지 등 데이터의 종류에 상관없이 모든 지도학습 데이터에 활용할 수 있으며, 에폭 스코어의 AUC(Area Under the Curve)를 통해 모델의 성능을 유추할 수 있다.
RDID-GAN: 비식별화 이미지 데이터 복원을 통한 효과적인 학습데이터 생성
http://doi.org/10.5626/JOK.2021.48.12.1329
최근 여러 사회 문제들을 예방 및 신속하게 대처하기 위해 CCTV가 설치되고 있고 인공지능을 활용해 이를 효과적으로 처리하는 방안이 연구되고 있다. 하지만, CCTV에서 수집한 데이터는 개인정보 침해의 우려가 있어 비식별화 작업 없이는 자유롭게 사회문제 해결을 위한 모델을 연구하는데 사용할 수 없다. 따라서, 본 논문에서는 RDID-GAN을 제안하여 비식별화된 사람의 얼굴을 임의로 복원하여 개인정보 침해의 우려를 줄이고 네트워크 학습에도 부정적인 영향을 주지 않는 효과적인 데이터셋 제작 방안을 제안한다. RDID-GAN은 attention module을 활용해 비식별화된 부분에 집중하여 합당한 결과를 생성할 수 있도록 하였다. 우리는 실험을 통해 해당 모델과 기존의 제안된 image-to-image 변환 모델을 정성적 및 정량적으로 비교하였다.
다변량 데이터의 피처 조합을 활용한 ConvLSTM 기반 COVID-19 확산 예측
http://doi.org/10.5626/JOK.2021.48.4.405
COVID-19는 감염자의 비말을 통해 전파된다. 비말의 전파는 시공간의 영향을 받는다. 전염병의 전파는 감염자와 비감염자의 건강 상태, 환경적 요인 등 다양한 요인의 상호작용으로 이루어진다. 하지만 예측 모델에 전염병과 관련된 정보를 모두 포함하고, 정보간의 관계를 파악하는 것은 쉽지 않다. 본 논문에서는 COVID-19의 전염 특징을 딥러닝 학습 데이터셋에 포함하고, COVID-19 확산 데이터의 조합이 딥러닝 예측 성능에 미치는 영향을 파악하는 연구 방법을 제안하였다. 예측에 앞서 COVID-19의 전염 특징을 파악하고, 데이터 전처리 시 COVID-19 확산 특징을 포함하기 위한 고려 사항을 정의하였다. 딥러닝 모델링 시에는 시공간 예측을 위해 ConvLSTM을 응용한 예측 모델을 설계하였다. 예측 모델을 테스트하는 단계에서는 확산 데이터를 여러 가지 방식으로 조합하고, 각 조합이 딥러닝 예측 성능에 미치는 영향을 분석하였다. 성능 평가를 위해 COVID-19 확진자의 정보와 확진자가 방문한 장소의 특징을 기준으로 47개의 피처를 만들고, 120개의 피처 조합을 실험하였다. 또한 모델 성능 평가 지표로 MAPE를 이용하였다. 실험 결과, COVID-19 데이터셋에서 피처 조합 모델의 MAPE 평균값으로 1.234, 피처를 조합하지 않은 모델의 MAPE 평균값으로 2.217을 얻을 수 있었다.
수치 데이터 세트에서 Tomek Links 방법과 Balancing GAN을 결합한 불균형 데이터 문제 개선 기술
http://doi.org/10.5626/JOK.2020.47.10.974
머신러닝은 데이터 분류, 음성인식, 예측 모델 등 다양한 응용 분야에서 좋은 성능으로 유용하게 이용되고 있다. 하지만 학습 데이터 세트의 클래스 간 불균형으로 인해 소수 클래스에 대한 모델의 성능이 저하되는 문제가 있다. 본 논문에서는 불균형 데이터 문제를 해결하고 명확한 결정 경계를 찾기 위해 Balancing GAN과 Tomek Links 방법을 결합한 새로운 데이터 증폭 방법을 제안한다. 그리고 제안된 방법을 검증하기 위해 5개의 데이터 세트를 사용하여 분류 모델에 따른 제안 방법의 성능을 평가하고, 데이터 샘플링과 GAN 기반의 데이터 증폭 기법들과의 성능을 비교하였다. 그 결과 총 25개의 성능 평가중 17개에서 분류 성능이 0.05~0.195 만큼 개선되거나 유지되는 것을 확인하였다. 본 논문에서 제안하는 방법은 불균형 데이터 문제를 해결할 수 있는 새로운 방법으로써의 가능성을 보여주었다.
음성감정데이터베이스의 분석과 프레임 단위 특징과 발음단위 특징을 통합하는 Attention Mechanism을 이용한 음성 감정 인식 시스템의 개발
http://doi.org/10.5626/JOK.2020.47.5.479
본 연구에서 음성신호로부터 프레임 단위의 특징과 발음 단위의 특징을 통합하고 감정의 정보를 분석하는 BLSTM(Bidirectional Long-Sort Term Memory) 레이어, Attention mechanism 레이어 및 심층 신경회로망으로 구성되는 모델을 제안하고, 음성 감정 데이터베이스 IEMOCAP(Interactive Emotional Dyadic Motion Capture) 레이블의 신뢰성 분석에 기초하여 모델의 성능을 분석하였다. IEMOCAP 데이터베이스에서 제공되는 레이블의 평가 자료에 기초하여 기본 데이터 셋, 감정 클래스의 분포를 균형화 시킨 데이터 셋, 3명 이상의 판정에 기초하여 신뢰성이 개선된 데이터 셋을 구성하고, 각각의 데이터 셋에 대하여 화자독립 교차검증실험을 수행하였다. 개선되고 균형화된 데이터 셋에 대한 실험에서 최대 67.23% (WA, Weighted Accuracy), 56.70% (UA, Unweighted Accuracy)의 스코어를 성취하였고 기본 데이터 셋의 실험에 비하여 6.47% (WA, 4.41% (UA) 개선됨을 확인하였다.
링크 추정을 위한 지식 그래프 임베딩 기반의 앙상블 모델
http://doi.org/10.5626/JOK.2020.47.5.473
링크 추정은 개체 사이의 관계를 추정하는 문제로, 지식 베이스를 완전하게 만들기 위한 태스크 중 하나이다. 지식 베이스는 많은 개체와 관계들을 포함하고 있지만, 누락된 지식 트리플들이 존재하기 때문에 완전하지 않다. 누락된 지식 트리플들은 지식 베이스의 활용에 한계를 야기하기 때문에 누락된 관계 정보들을 찾아 지식 베이스를 완전하게 만들기 위해 본 논문은 링크 추정을 수행하고자 한다. 기존의 링크 추정을 위한 연구들은 주로 지식 그래프 임베딩을 활용하여 누락된 관계들을 찾았다. 하지만 임베딩된 벡터들은 정확성이 부족하기 때문에 hit@10에서는 좋은 성능을 보였지만, hit@1에서는 부족한 성능을 보여 주었다. 그러므로 하나의 지식 그래프 임베딩만을 사용하여 링크를 추정하는 것은 효과적이지 않으며, 지식 그래프 임베딩들은 각자의 관점을 가지고서 임베딩하기 때문에 이들을 함께 고려하는 것이 필요하다. 따라서 본 논문에서는 기존의 링크 추정의 성능을 높이기 위하여 지식 그래프 임베딩 기반의 앙상블 모델을 제안한다. 지식 그래프 임베딩 모델들은 각자의 관점 및 특성을 가지고 있기 때문에, 이들을 결합하면 다양한 관점들을 고려할 수 있다. WN18과 FB15K 데이터 셋으로 실험한 결과, 기존의 각 모델들보다 제안한 모델이 평균적으로 13.5% 높은 성능을 보여 주었다. 또한 사용자 파라미터에 기존 모델보다 강건한 결과를 보여 제안한 모델의 우수함을 증명하였다.
S²-Net을 이용한 한국어 기계 독해
http://doi.org/10.5626/JOK.2018.45.12.1260
기계 독해는 주어진 문맥을 이해하고, 질문에 적합한 답을 문맥 내에서 찾는 문제이다. Simple Recurrent Unit (SRU)은 GRU 등과 같이 neural gate를 이용하여 RNN에서 발생하는 베니싱 그래디언트 문제를 해결하고, gate 입력에서 이전 hidden state를 제거하여 GRU보다 속도를 향상시킨 모델이며, Self-matching Network는 R-Net 모델에서 사용된 것으로, 자기 자신의 RNN sequence에 대하여 어텐션 가중치를 계산하여 비슷한 의미 문맥 정보를 볼 수 있기 때문에 상호참조해결과 유사한 효과를 볼 수 있다. 본 논문에서는 한국어 기계 독해 데이터 셋을 구축하고, 여러 층의 SRU를 이용한 Encoder에 Self-matching layer를 추가한 S2-Net 모델을 제안한다. 실험 결과, 본 논문에서 제안한 S²-Net 모델이 한국어 기계 독해 데이터 셋에서 EM 70.81%, F1 82.48%의 성능을 보였다.