디지털 라이브러리[ 검색결과 ]
인터넷 감정기호를 이용한 긍정/부정 말뭉치 구축 및 감정분류 자동화
네티즌은 인터넷을 통해서 상품을 구매하고 상품에 대한 감정을 긍정 혹은 부정으로 상품평에 표현한다. 상품평에 대한 분석은 잠재적 소비자뿐만 아니라 기업의 의사결정에 중요한 자료가 된다. 따라서 인터넷의 대량 리뷰에서 의미 있는 정보를 분석하여 의견을 도출하는 오피니언 마이닝 기술의 중요성이 증대되고 있다. 기존의 연구는 대부분이 영어를 기반으로 진행되었고 아직 한글에 대한 상품평 분석은 활발히 이루어 지지 않고 있다. 또한 한글은 영어와 달라 꾸미는 말과 어미가 복잡한 특성을 갖고 있다. 그리고 기존의 연구는 통계적 기법, 사전 기법, 기계학습 기법 등을 사용하여 연구되었으나 인터넷 언어의 특성을 감안하지는 못하였다. 본 연구에서는 감정이 포함된 인터넷 언어의 특성을 분석하여 감정분석의 정확률을 높이는 감정분류 방법을 제안한다. 이를 통해 데이터에 독립적인 인터넷 감정기호를 이용해서 자동으로 긍정 및 부정 상품평을 분류할 수 있었고 높은 정확률, 재현율, Coverage 결과를 통해서 제안 알고리즘의 유효성을 확인할 수 있었다.
도메인 적응 및 준지도학습 기반의 단일 세포 시퀀싱 세포 타입 분류
http://doi.org/10.5626/JOK.2025.52.2.125
개별 세포에서 유전자 발현을 측정하는 단일 세포 시퀀싱 (scRNA-seq) 기술이 빠르게 발전되고 있다. 최근 scRNA-seq 데이터 기반의 세포 타입 분류에서 딥러닝 기술이 활용되고 있다. 대부분의 방법은 세포 타입 라벨을 보유한 데이터를 사용하여 모델을 훈련한 후 해당 모델을 다른 데이터에 적용한다. 그러나 여러 데이터의 통합은 시퀀싱 기술 등의 차이로 인해 배치 효과를 초래하며, 이는 유의미한 유전자 발현 차이 발견을 방해한다. 이 논문에서는 데이터셋 간 분포 차이를 줄이기 위해 비지도 도메인 적응 및 준지도 학습 기반의 세포 타입 예측 모델을 제안한다. 먼저, 세포 타입 정보를 포함하는 소스 데이터를 기반으로 제안 모델을 사전 훈련시킨다. 그 후, 적대적 훈련을 기반으로 타겟 데이터의 분포를 소스 데이터의 분포와 정렬시킨다. 마지막으로, 준지도 학습을 기반으로 모델을 재훈련시킨다. 제안 모델은 배치 효과를 제거하여 기존의 배치 효과 보정 모델보다 높은 분류 성능을 보였다.
자가 차동 시험을 이용한 분류 모델의 성능 근사
http://doi.org/10.5626/JOK.2022.49.12.1143
차동 시험(differential testing)은 유사한 응용 프로그램이 동일한 입력에 대해 서로 다른 출력을 생성하는지를 관찰하여 오류를 감지하는 전통적인 소프트웨어 시험 기법이다. 인공지능 시스템에서도 차동 시험이 사용되고 있는데, 현존하는 연구 방법들은 시험 대상 신경망과 동일 기능을 수행하는 구조가 다른 고품질의 참조 대상 신경망을 찾는 비용을 요구한다. 본 논문에서는 인공지능 시스템의 차동 시험 시 다른 구조의 신경망을 찾을 필요 없이 시험 대상 신경망을 이용해 참조 모델을 만들어 시험을 수행하는 자가 차동 시험(self-differential testing) 기법을 제안하였다. 실험 결과 제안 기법은 다른 참조 모델을 필요로 하는 기존 방법보다 저비용으로 유사한 효과를 내는 것을 확인하였다. 본 논문은 자가 차동 시험의 응용인 자가 차동 분석을 활용해 분류 신경망의 정확도 근사 방법도 추가로 제안한다. 제안 기법을 통한 근사 정확도는 MNIST와 CIFAR10의 유사 데이터 셋을 이용한 실험에서 실제 정확도와 0.0002~0.09 정도의 낮은 차이로 성능 근사의 가능성을 확인할 수 있었다.
흉부 X-선 영상에서 밝기값 정규화 및 다중 스케일 폐-집중 패치를 사용한 앙상블 딥러닝 모델 기반의 폐렴 자동 분류
http://doi.org/10.5626/JOK.2022.49.9.677
소아 흉부 X-선 영상(CXR)은 밝기값이 불규칙하여 정상과 폐렴을 구분하기 어렵다. 또한 딥러닝 모델은 폐의 외부 영역에 잘못 집중하여 CXR을 오분류할 수 있다는 한계가 있다. 본 논문은 CXR 영상에서 밝기값 정규화 및 다중 스케일 폐-집중 패치를 사용한 앙상블 딥러닝 기반 폐렴 자동 분류 방법을 제안한다. 첫째, 불규칙한 폐 내부 밝기값을 개선하기 위해 세 가지 밝기값 정규화 방법을 각각 수행한다. 둘째, 폐 내부에 집중하여 학습하기 위해 폐 영역을 분할하여 관심 영역을 추출한다. 셋째, 다중 스케일 폐-집중 패치를 사용하여 폐렴의 특징을 학습한다. 마지막으로 분류 성능을 향상시키기 위해 어텐션 모듈을 추가한 앙상블 모델을 사용한다. 실험 결과, CLAHE를 적용한 큰 크기의 패치 사용 시 정확도 92%로 원 영상 대비 5%p 향상된 성능을 보였다. 또한 큰 크기와 중간 크기의 패치를 앙상블한 제안 방법이 정확도 93%로 가장 좋은 성능을 보였다.
CBCA 준거 분류에서의 BERT 기반 모델 성능 비교
http://doi.org/10.5626/JOK.2022.49.9.727
아동 성범죄의 경우 피해자의 진술은 사건의 유, 무죄를 판별함에 있어서 매우 중요하게 작용하기 때문에, 대검찰청에서는 피해자 진술 분석 기법인 Criteria-Based Content Analysis (CBCA)에 따라, 진술 내용을 총 19개의 준거로 분류하여 진술 전체의 신빙성을 판단한다. 그러나 이는 진술분석관의 주관적 의견에 따라 준거 분류가 상이할 수 있다. 따라서 본 논문에서는 BERT와 RoBERTa를 사용하여 객관적 분류 모델을 제시하기 위하여 크게 두가지 분류 방식을 적용하여 비교 분석하였다. 두 가지 방법은 전체 준거를 동시에 분류하는 방식과 4개의 그룹으로 나누어 1차 분류 후 해당 그룹 내에서 어떠한 준거인지 2차 분류하는 방식으로 구성하였다. 진술 문장을 CBCA의 중복 분류되는 준거를 제외한 16개 준거로 분류하고, 여러 사전 학습 모델을 사용한 비교 분석을 수행하였다. 분류 결과, 전자의 분류 방식이 총 16개의 준거 중 13개의 준거에서 후자의 분류 방식보다 성능이 높았으며, 학습 데이터의 수가 상대적으로 부족한 3개의 준거에서 후자의 방식이 효과적임을 확인하였다. 또한 RoBERTa 기반 모델이 16개의 준거 중 15개의 준거에서 BERT 기반 모델보다 성능이 높았으며, 나머지 1개의 준거에서는 한국어 대화형 구어체만으로 사전학습한 BERT 모델만이 유일하게 분류하였다. 이는 대화형 구어체 데이터로 사전 학습된 모델이 아동의 진술 문장을 분류함에 있어서 효과적임을 알 수 있다.
시계열 이미징 기법을 이용한 다변량 센서 데이터 분류
http://doi.org/10.5626/JOK.2022.49.8.593
과거 정보로부터 미래를 예측하기 위해 통계 기반의 시계열 분석 방식부터 LSTM과 같은 딥러닝 기반 예측 모델들까지 다양한 방법들이 제안되었다. 그러나 실제 산업에서 사용하는 데이터의 경우 예측 불가능한 여러 요인들로 인해 높은 복잡성을 갖으며, 이로 인해 예측 모델만으로는 시계열 데이터에 내포된 가치 있는 정보를 추출하기 어려운 문제점이 있다. 시계열 이미징(time series imaging)은 시계열을 2차원 이미지로 변환하여 분석하는 방법으로, 원시 시계열에서 해석하기 힘든 정보의 추출을 가능하게 한다. 본 논문에서는 다변량 센서 데이터를 2차원의 다채널 이미지로 변환하여 이를 기반으로 시계열을 분류하는 방식을 제안하였으며, 기존에 시계열 예측 분야에서 사용하는 방식과의 비교를 통해 제안 방식의 효용성을 검증하였다.
감정 어휘 사전을 활용한 KcBert 기반 영화 리뷰 말뭉치 감정 분석
http://doi.org/10.5626/JOK.2022.49.8.608
감정 분석은 텍스트 데이터에 표현된 인간이 느끼는 감정을 기쁨, 슬픔, 분노, 놀람, 공포 등의 다양한 감정 유형으로 분류하는 것이다. 본 연구에서는 감정 어휘 사전을 활용하여 영화 리뷰 말뭉치에 표현된 감정을 기쁨, 슬픔, 공포, 분노, 혐오, 놀람, 흥미, 지루함, 통증의 9가지로 분류하여 감정 말뭉치를 구축하고, KcBert에 감정 말뭉치를 학습시켜 모델의 성능을 평가하였다. 감정 말뭉치를 구축하기 위해 심리학 모델을 기반으로 한 감정 어휘 사전을 사용하였는데, 감정 어휘 사전의 어휘와 영화 리뷰 말뭉치에 나타난 감정 어휘가 일치하는지 여부를 판단하고, 영화 리뷰 말뭉치의 마지막에 등장하는 어휘에 일치하는 감정 유형을 주석하였다. 이렇게 구축한 감정 말뭉치를 NSMC로 사전 학습된 KcBert에 학습시켜 그 성능을 평가한 결과, KcBert는 감정을 9가지 유형으로 분류한 모델에서도 우수한 성능을 보였다.
119구급 신고데이터에 대한 분류모델 성능 개선
http://doi.org/10.5626/JOK.2022.49.1.89
본 논문은 119구급 신고 접수과정에서 접수자에 의해 기록되는 신고내용에 대하여 재난 상황별 최적의 대응 정보 제공을 위한 텍스트 분류(Text Classification) 모델에 대한 연구내용이다. 문장을 입력받아 어떤 범주에 속하는지 분류하는 텍스트 분류 모델은 자연어처리 분야에서 널리 사용되는 기술이다. 본 연구는 지도학습을 통한 텍스트 분류 모델의 성능 향상을 위해 학습용 데이터를 증강 활용하기 위한 규칙을 정의하고, 증강된 학습용 데이터를 이용한 분류 모델의 성능을 실험으로 확인하였다. 본 연구를 통해 질병, 교통사고, 부상 등 구급 세부 상황별 신고내용으로 입력되는 텍스트 분류 모델의 성능 향상을 위한 확장 가능성을 제시하였다.
텍스트 바꿔 쓰기 과제를 위한 분류 모델 기반의 손실 함수 설계와 평가
http://doi.org/10.5626/JOK.2021.48.10.1132
바꿔 쓰기(paraphrase generation)는 입력 문장에 대하여 의미는 같지만, 단어나 통사 구조와 같은 표현이 다른 문장을 생성하는 과제이다. 최근 이를 구현하기 위해 인공 신경망 기반의 모델이 널리 사용되며, 학습 방법으로서 지도 학습이 주로 사용된다. 그러나 생성된 문장과 레이블 문장 간의 차이를 줄이는 지도 학습 방법은 모델에 제한된 의미 정보만을 제공한다. 따라서 본 논문에서는 분류 과제를 학습한 별도의 모델을 활용하여, 바꿔 쓰기 모델 학습 시 의미 정보를 추출하고 이를 활용하는 방법을 제안하고 실험하였으며, 그 결과 기존 방법과 비교하여 더 좋은 성능을 보였다.
적은 자원의 흉부 X-ray 분류 성능 향상을 위한 데이터 증강과 결합한 약지도 학습
http://doi.org/10.5626/JOK.2021.48.9.1027
딥러닝 기반의 의료영상 분석기술은 방사선 전문의의 판독 능력을 능가하는 정확도를 보일 정도로 발전하였다. 하지만, 의료영상 학습에 사용하는 샘플 데이터를 만드는 것(labeling)은 전문가가 필요한 영역이고 큰 비용과 시간이 소요된다. 또한, 많은 경우에 의료영상의 훈련용 데이터는 질환별로 불균형한 분포를 가진다. 예를 들어, 흉부 X-ray 분류 학습을 위한 ChestX-ray14 데이터셋의 경우, 침윤(infiltration)과 탈장(hernia)의 데이터 분포의 차이는 87배에 이른다. 본 연구에서는 불균형한 흉부 X-ray 분류의 성능 향상을 위하여 데이터 증강(data augmentation) 알고리즘인 Mixup과 약지도 학습(weakly supervised learning)을 결합하는 방법을 제안한다. 제안하는 방법은 데이터 불균형 완화를 위하여 적은 수의 레이블이 있는 데이터와 다수의 레이블이 없는 데이터에 복합적으로 Mixup 알고리즘을 적용하고, 교사 모델(teacher model)과 학생 모델(student model)을 순환하면서 레이블이 없는 데이터를 효과적으로 활용하는 커리큘럼 학습(curriculum learning)을 수행하는 것이다. 의료 현장에서 생각할 수 있는 적은 수의 레이블이 있는 데이터(labeled data)와 레이블이 없는 데이터(unlabeled data)가 존재하는 환경을 구성하여 실험을 수행한 결과 데이터 증강과 약지도 학습을 결합함으로써 분류 성능이 향상됨을 보였으며, 순환적인 커리큘럼 학습이 효과가 있음을 확인하였다.