디지털 라이브러리[ 검색결과 ]
도메인 적응 및 준지도학습 기반의 단일 세포 시퀀싱 세포 타입 분류
http://doi.org/10.5626/JOK.2025.52.2.125
개별 세포에서 유전자 발현을 측정하는 단일 세포 시퀀싱 (scRNA-seq) 기술이 빠르게 발전되고 있다. 최근 scRNA-seq 데이터 기반의 세포 타입 분류에서 딥러닝 기술이 활용되고 있다. 대부분의 방법은 세포 타입 라벨을 보유한 데이터를 사용하여 모델을 훈련한 후 해당 모델을 다른 데이터에 적용한다. 그러나 여러 데이터의 통합은 시퀀싱 기술 등의 차이로 인해 배치 효과를 초래하며, 이는 유의미한 유전자 발현 차이 발견을 방해한다. 이 논문에서는 데이터셋 간 분포 차이를 줄이기 위해 비지도 도메인 적응 및 준지도 학습 기반의 세포 타입 예측 모델을 제안한다. 먼저, 세포 타입 정보를 포함하는 소스 데이터를 기반으로 제안 모델을 사전 훈련시킨다. 그 후, 적대적 훈련을 기반으로 타겟 데이터의 분포를 소스 데이터의 분포와 정렬시킨다. 마지막으로, 준지도 학습을 기반으로 모델을 재훈련시킨다. 제안 모델은 배치 효과를 제거하여 기존의 배치 효과 보정 모델보다 높은 분류 성능을 보였다.
시멘틱 세그멘테이션 도메인 적응 향상을 위한 거대 영상-언어 모델 기반 수도 라벨 보정 기법
http://doi.org/10.5626/JOK.2024.51.5.464
현실에서 획득한 이미지에 대해 시멘틱 세그멘테이션 라벨을 만드는 것은 매우 비용이 많이 든다. 비지도 도메인 적응에서는 이러한 문제를 해결하기 위해 라벨을 쉽게 수집할 수 있는 가상 환경에서 생성된 데이터 혹은 이미 라벨이 확보된 데이터와 라벨이 없는 현실에서 획득한 이미지를 활용하여 모델 을 학습시킨다. 비지도 도메인 적응에서 흔히 나타나는 문제 중 하나는 유사한 사물 클래스를 쉽게 혼동한 다는 것이다. 본 논문에서는 거대 영상-언어 모델을 활용하여 타겟 데이터의 수도 라벨을 보정하는 방법 을 제안한다. 타겟 이미지에 대해 생성되는 수도 라벨을 보다 정확하게 만들면 사물 클래스 간의 혼동을 줄일 수 있다. 제안된 방법은 DAFormer의 성능을 게임에서 현실로의 적응에서 +1.1 mIoU, 낮에서 밤으 로의 적응에서 +1.1 mIoU 향상시켰다. 사물 클래스에 대해 MIC의 성능을 게임에서 현실로의 적응에서 +0.6 mIoU, 낮에서 밤으로의 적응에서 +0.7 mIoU 향상시켰다.
다양한 도메인 변화에 강건한 한국어 표 기계독해
http://doi.org/10.5626/JOK.2023.50.12.1102
표 데이터는 일반적인 텍스트 데이터와 다르게 구조적인 특장점으로 정보를 압축해 표현할 수 있다. 이는 표가 다양한 도메인에서 활용되는 것으로 이어지며, 기계독해 영역에서의 표 기계독해 능력이 차지하는 비중은 점점 커지고 있다. 하지만 도메인마다 표의 구조와 요구되는 지식이 달라 언어 모델을 단일 도메인으로 학습했을 때 다른 도메인에서의 모델의 평가 성능이 하락해 일반화 성능이 낮게 나타날 가능성이 크다. 이를 극복하기 위해서는 다양한 도메인의 데이터셋 구축이 우선이 되어야 하며, 단순 사전학습한 모델이 아닌 다양한 기법을 적용하는 것이 중요하다. 본 연구에서는 도메인 일반화 성능을 높이기 위해 도메인 간 불변하는 언어적 특성(Invariant-feature)을 학습하는 언어 모델을 설계한다. 각 도메인별 평가 데이터셋에서의 성능을 높이기 위해서 적대적 학습을 이용하는 방법과 표 데이터에 특화된 임베딩 레이어와 트랜스포머 레이어를 추가하는 모델의 구조를 변형하는 방법을 적용하였다. 적대적 학습을 적용했을 때는 표와 관련된 특화된 임베딩을 추가하지 않는 구조의 모델에서 성능이 향상되는 것을 확인했으며, 표에 특화된 트랜스포머 레이어를 추가하고 추가된 레이어가 표에 특화된 임베딩을 추가로 입력받도록 했을 때, 모든 도메인의 데이터에서 가장 향상된 성능을 보였다.
메신저 데이터 저자 프로파일링을 위한 한국어 구어체 텍스트 기반 성별 분류 모델
http://doi.org/10.5626/JOK.2023.50.12.1063
소셜 네트워크 서비스(SNS)를 이용한 의사소통이 폭발적으로 증가함에 따라 메신저 기능을 통해 텍스트 데이터가 방대하게 발생하고 있다. 반면 최근 자연어 처리(Natural Language Processing) 분야의 발전으로 감성 분류, 욕설 탐지, 챗봇 등 다양한 애플리케이션이 개발되어 제공되고 있으나, 한국어 구어체 텍스트에서 발화자의 성별, 연령대와 같은 저자의 다양한 특징을 분류하려는 시도는 전무한 상황이다. 본 연구에서는 한국어 구어체를 활용하여 저자 프로파일링을 위한 성별 분류 모델을 제안한다. 발화자의 성별 분류를 위해 카카오톡 대화 데이터를 기반으로, 한국어 댓글로 학습한 KcBERT(Korean Comments BERT)에 일상대화와 유사한 ‘네이트판(Nate Pan)’ 데이터를 추가로 학습하여 Domain Adaptation을 진행한다. 그 후 어휘 외적인 정보를 결합한 모델로 실험한 결과 약 95%의 정확도를 달성하여 성능이 향상 됨을 보였다. 본 연구에서는 Domain Adaptation을 위해 자체 수집한 ‘네이트판(Nate Pan)’ 데이터 세트와 국립국어원 제공 데이터 세트를 활용하고, 모델의 학습과 평가를 위해서 AI HUB의 ‘한국어 SNS’ 데이터 세트를 이용한다.
교차 버전 결함 예측용 적대적 학습 기반 딥 도메인 적응 기법 분석
http://doi.org/10.5626/JOK.2023.50.6.460
소프트웨어 결함 예측은 효과적인 테스팅 자원 할당에 유용한 기법이다. 소프트웨어 교차 버전 결함 예측은 소프트웨어가 연속적인 버전으로 개발되는 환경을 반영하며, 소프트웨어 모듈은 버전 업데이트 과정을 거치며 추가되거나 삭제된다. 이러한 과정의 반복은 버전 간의 데이터 분포 차이를 발생시키는 원인이 되며, 데이터 분포 차이는 예측 성능을 저하시킨다. 딥 도메인 적응 기법은 컴퓨터 비전 분야에서 소스와 타겟 데이터의 분포 차이를 줄이는데 사용되는 기법이다. 본 연구의 목표는 다양한 적대적 학습 기반의 딥 도메인 적응 기법을 활용해 버전 간의 데이터 분포 차이를 줄이고, 결함 예측 성능이 가장 우수한 기법을 식별하는 것이다. 우리는 딥 도메인 적응 기법인 Domain-Adversarial Neural Network(DANN)와 Adversarial Discriminator Domain Apaptation(ADDA), Wasserstein Distance Guided Representation Learning(WDGRL)의 성능을 비교 실험하며, 소스 데이터의 구성에 따른 성능 차이를 확인한다. 또한 학습 과정에 사용되는 타겟 데이터의 비율에 따른 성능 차이와 세 가지 딥 도메인 적응 기법 중 결함 예측성능이 가장 우수한 DANN 모델의 하이퍼파라미터 설정에 따른 성능 차이를 확인한다. 실험 결과, DANN 모델은 타겟 버전을 제외한 이전 버전의 모든 데이터를 소스로 사용할 때 성능이 가장 우수하다. 특히 DANN 모델의 은닉층 수를 3개로 설정할 때 가장 우수한 성능을 보였다. 또한 딥 도메인 적응 기법을 적용할 때, 학습 과정에 사용되는 타겟 데이터가 많을수록 우수한 성능을 보인다. 본 연구를 통해 향후 다양한 딥 도메인 적응 기법이 소프트웨어 교차 버전 결함 예측에 활용될 수 있을 것으로 기대한다.
회전 기계 고장 진단을 위한 적대적 순환 일관성 유지 학습기반 교차 도메인 적응 방법
http://doi.org/10.5626/JOK.2022.49.7.530
다양한 산업분야에서 데이터 기반의 고장 진단 모델에 대한 연구가 활발히 이루어지고 있다. 그러나 산업 장비의 경우 다양한 운행 조건이 발생하고, 이에 따른 충분한 훈련 데이터 확보가 어렵다는 문제가 있다. 이러한 문제를 해결하기 위해 교차-도메인 적응 기법을 활용할 수 있다. 본 연구에서는 회전체 진동 데이터를 사용하여 학습되지 않은 새로운 환경 데이터에 대해서도 고장 분류 일관성을 유지할 수 있는 적대적 일관성 유지 변환 학습 방법을 제안한다. 일관성 유지 학습을 통해 생성된 데이터는 새로운 운행 조건 데이터 분포와 이미 알고 있는 데이터 분포 간의 연속적인 불변 잠재 공간을 생성하고, 고장분류 특징 정보를 공유하는 적대적 학습 네트워크를 통해 고장 분류 성능을 유지하도록 학습한다. 따라서 제안된 방법은 도메인 데이터 간의 불일치를 최소화할 수 있는 잠재적 공간을 넓힘으로써 보다 안정적이고 일반적인 분류 성능을 확보할 수 있다. 제안한 모델의 실험결과는 약 88%내외의 성능 평가가 이루어졌으며, 기존 교차-도메인 적응 학습 기법들과 비교하여, 약 5~10%의 성능향상을 보였다. 이러한 연구결과로 실제 산업현장에서 겪는 장비 고장 진단 문제의 효과적인 해결방안이 될 것으로 기대된다.
도메인 적응 기술을 이용한 한국어 의미역 인식
높은 성능의 의미역 인식 시스템의 개발을 위해서는 대상 도메인에 대한 대량의 수동 태깅 학습 데이터가 필요하다. 그러나 충분한 크기의 의미역 인식용 학습 데이터는 오직 소수의 도메인에서만 존재한다. 소스 도메인의 시스템을 상대적으로 매우 작은 학습 데이터를 가진 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 15% 정도 성능 하락이 발생한다. 이러한 도메인 변경에서의 성능 하락 현상을 최소화하기 위해 본 논문에서는 2 가지 기법을 제시한다. 첫째, 도메인 적응 방법론의 하나인 Prior 모델에 기반하여 개발된 한국어 의미역 인식 시스템을 위한 도메인 적응 알고리즘을 제안한다. 둘째, 크기가 작은 타겟 도메인 데이터를 이용할 때 데이터 희귀 문제의 감소를 위해 소스 도메인 데이터 이용시 보다 단순화된 형태소 태그와 구문 태그 자질을 사용할 것을 제안한다. 뉴스 도메인에서 개발된 시스템의 위키피디아 도메인에의 적용과 관련하여 다른 연구의 도메인 적응 기술과 우리가 제안한 방법을 비교 실험하였다. 우리의 두 가지 방법을 같이 사용할 때 더 높은 성능을 달성하는 것을 관찰하였다. 우리 시스템은 F1-score 64.3% 성능으로서 기존의 다른 도메인 적응 기술들과 비교하여 2.4~3.1% 더 높은 성능을 가지는 것으로 관찰되었다.