검색 : [ keyword: 준지도학습 ] (3)

도메인 적응 및 준지도학습 기반의 단일 세포 시퀀싱 세포 타입 분류

채희준

http://doi.org/10.5626/JOK.2025.52.2.125

개별 세포에서 유전자 발현을 측정하는 단일 세포 시퀀싱 (scRNA-seq) 기술이 빠르게 발전되고 있다. 최근 scRNA-seq 데이터 기반의 세포 타입 분류에서 딥러닝 기술이 활용되고 있다. 대부분의 방법은 세포 타입 라벨을 보유한 데이터를 사용하여 모델을 훈련한 후 해당 모델을 다른 데이터에 적용한다. 그러나 여러 데이터의 통합은 시퀀싱 기술 등의 차이로 인해 배치 효과를 초래하며, 이는 유의미한 유전자 발현 차이 발견을 방해한다. 이 논문에서는 데이터셋 간 분포 차이를 줄이기 위해 비지도 도메인 적응 및 준지도 학습 기반의 세포 타입 예측 모델을 제안한다. 먼저, 세포 타입 정보를 포함하는 소스 데이터를 기반으로 제안 모델을 사전 훈련시킨다. 그 후, 적대적 훈련을 기반으로 타겟 데이터의 분포를 소스 데이터의 분포와 정렬시킨다. 마지막으로, 준지도 학습을 기반으로 모델을 재훈련시킨다. 제안 모델은 배치 효과를 제거하여 기존의 배치 효과 보정 모델보다 높은 분류 성능을 보였다.

데이터셋 품질 개선을 위한 Self-Supervised Vision Transformer 기반의 객체 Pseudo-label 생성 기법

김도현, 전지웅, 임성택, 이홍철

http://doi.org/10.5626/JOK.2024.51.1.49

이미지 분할은 이미지에 존재하는 객체를 객체 상자로 지역화하고 픽셀을 적절한 범주로 분류하는 컴퓨터 비전의 중요한 분야 중 하나이다. Instance segmentation 모델의 성능을 위해서는 다양한 크기의 객체에 대한 라벨을 가진 데이터셋이 요구된다. 하지만 최근 공개된 ‘Small Object Detection을 위한 이미지’ 데이터셋은 크기가 크고 일반적인 객체에 대한 라벨이 부족하여 잠재적 성능 저하를 유발한다. 본 논문에서는 위와 같은 문제를 해결하기 위해 비지도 학습 기반의 pseudo-labeling 방법론을 응용하여 일반적인 객체에 대한 pseudo-label을 생성함으로써 데이터셋의 품질을 개선한다. 실험결과, 기존 데이터셋 대비 작은 객체 분할 성능이 (+2.54 AP) 증가하였다. 추가적으로 적은 양의 데이터를 이용한 경우에서도 성능의 증가도 확인할 수 있었다. 이에 따라 제안된 방법론을 통해 효과적으로 데이터셋의 품질이 개선된 것을 확인할 수 있었다.

배깅 기반의 부트스트래핑을 이용한 개체명 인식 학습 기법

정유진, 김주애, 고영중, 서정연

http://doi.org/10.5626/JOK.2018.45.8.825

기존 개체명 인식 연구는 지도학습에 기반한 개체명인식이 주를 이루고 있다. 지도학습에 기반한 개체명인식이 좋은 성능을 보이고 있지만, 대량의 정답 말뭉치를 구축하기 위해 많은 시간과 비용을 필요로 한다는 문제점이 있다. 본 논문에서는 이러한 문제를 해결하기 위해, 대량의 말뭉치에 수동으로 정답을 부여하기 위한 노력 없이, 개체명 인식 모델이 자동 생성한 정답을 학습에 사용하는 개체명 인식 모델 학습 기법을 제안한다. 제안 방법은 소량의 개체명 정답 말뭉치만으로 대량의 개체명 정답을 자동 생성하여 학습에 사용하므로, 대량의 정답 말뭉치를 생성하기 위해 필요한 시간과 비용을 크게 절감시킨다. 추가적으로 배깅 기법을 사용하여 자동 생성한 정답들 중 오류를 제거한다. 부트스트래핑 기법과 배깅 기법을 추가하였을때, F1 점수 최고 70.67%를 기록하였다. 비교를 위한 기본 CRF 개체명 인식 모델의 F1 점수는 65.59%를 기록하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr