검색 : [ keyword: MAC ] (115)

음성인식 모델 및 언어 모델 기반의 음성 전사 코퍼스 오류 자동 검출 방법

이정필, 이지현, 최예린, 장재후, 구명완

http://doi.org/10.5626/JOK.2024.51.4.362

본 연구에서는 CTC 기반 음성인식 모델과 언어 모델의 지식을 결합하여 한국어 음성 코퍼스에서 전사 오류를 자동 검출하는 machine-in-the-loop 방법을 제안한다. 음성인식 모델의 문자오류율(CER)과 언어 모델의 혼잡도(PPL)를 활용한 세 단계 절차를 통해 전사 오류 후보군을 찾아내고, 검출된 후보의 텍스트 레이블을 검수하는 방식으로 오류 검출의 성능을 실험적으로 확인하였다. 이 연구는 한국어 음성인식 코퍼스 KsponSpeech를 대상으로 진행하였으며, 테스트셋의 문자오류율이 검수 전 9.44%에서 8.9%로 개선되었다. 이는 테스트셋 중 약 11%의 데이터만 검수하더라도 성능 향상을 보여주며, 전체 검수에 비해 효율적인 방법임을 입증한다. 이를 통해 음성 데이터의 검수 비용을 줄일 수 있는 효율적인 machine-in-the-loop 오류 검출의 가능성을 확인하였다.

자이로 센서 데이터를 활용한 양치 위치 추정 및 비지도 학습 클러스터링을 통한 검증

김도윤, 권민욱, 백승주, 윤혜린, 임대연, 조은아, 류승재, 김영욱, 김진현

http://doi.org/10.5626/JOK.2023.50.12.1143

구강 건강은 수명과도 직접적 관련을 갖는 중요한 건강 지표다. 이러한 이유로 영유아부터 노인에 이르기까지 구강 건강은 국민 건강의 핵심으로 자리를 잡았다. 이러한 구강 건강의 기본은 올바른 양치 습관이다. 하지만 권장되는 올바른 양치 방법은 습관화하기 쉽지 않으며, 그러한 이유로 구강 건강에 해로운 영향을 준다. 본 논문은 올바른 양치 방법을 추적하기 위한 저비용의 IMU 센서를 통해 양치 구역을 구별하는 방법을 제안하고, 머신러닝의 클러스터링 알고리즘으로 양치 구역의 추정 방법의 정확성을 평가한다. 본 논문에서는 IMU 센서의 자이로 센서만을 사용하여 칫솔 자세만으로 양치 구역을 판단하는 방법을 제안한다. 이 논문에서는 비교적 저렴한 6축 IMU 자이로 센서 데이터만으로도 80.6%의 정확도로 사용자 양치 부위를 추정할 수 있음을 보였다. 또한, 이러한 데이터에 클러스터링 알고리즘을 적용하고 클러스터링 된 데이터를 활용하여 Logistic regression을 훈련하여 양치 구역을 추정한 결과 86.7%의 정확도로 얻을 수 있었으며 이를 통해 클러스터링이 효과적임과 함께 본 논문에서 제안한 칫솔 자세 기반의 양치 구역 추정이 효과가 있음을 보였다. 결론적으로 본 양치 구역 추정 알고리즘이 비교적 적은 비용의 칫솔로 기능이 구현될 수 있으며, 이를 통해 개인 양치 습관을 분석하고 개선함으로써 구강 건강 유지하는데에 도움이 될 것으로 기대할 수 있다.

Improvement of Machine Learning-Based Event-Related Desynchronization Accuracy

Gyuwon Song, SuJin Bak

http://doi.org/10.5626/JOK.2023.50.12.1131

생체인식 분야는 빠르고 정확한 신원 확인을 제공하는 것으로 알려졌다. 최근에는 운동 상상 (MI) 뇌파가 각광받고 이에 따른 이벤트 관련 비동기화 (ERD) 신호가 함께 등장했다. 이 연구의 목표는 사용자 간 분류 정확도를 향상시키기 위해 기존의 ERD 모델을 최적화하는 것이다. 대표적인 MI 특징 추출로 알려진 공통 공간 패턴(CSP)과 ERD를 사용했고, 나이브베이즈 (NB)로 분류했다. SVM의 이진 분류 결과의 신뢰성을 평가하기 위해, 동일 오류율(EER)과 곡선 아래의 면적(AUC) 이 사용되었다. 제안된 ERD 모델은 CSP와 전통적인 ERD에 비해 뛰어난 정확도를 보였으며, 각각 86.4%, 86.3%, 및 63%의 분류 정확도를 달성했다. 이러한 우수성을 바탕으로 제안된 ERD 방법이 향후 생체인식 마커로서 적합할 것으로 기대된다.

다양한 도메인 변화에 강건한 한국어 표 기계독해

조상현, 김혜린, 권혁철

http://doi.org/10.5626/JOK.2023.50.12.1102

표 데이터는 일반적인 텍스트 데이터와 다르게 구조적인 특장점으로 정보를 압축해 표현할 수 있다. 이는 표가 다양한 도메인에서 활용되는 것으로 이어지며, 기계독해 영역에서의 표 기계독해 능력이 차지하는 비중은 점점 커지고 있다. 하지만 도메인마다 표의 구조와 요구되는 지식이 달라 언어 모델을 단일 도메인으로 학습했을 때 다른 도메인에서의 모델의 평가 성능이 하락해 일반화 성능이 낮게 나타날 가능성이 크다. 이를 극복하기 위해서는 다양한 도메인의 데이터셋 구축이 우선이 되어야 하며, 단순 사전학습한 모델이 아닌 다양한 기법을 적용하는 것이 중요하다. 본 연구에서는 도메인 일반화 성능을 높이기 위해 도메인 간 불변하는 언어적 특성(Invariant-feature)을 학습하는 언어 모델을 설계한다. 각 도메인별 평가 데이터셋에서의 성능을 높이기 위해서 적대적 학습을 이용하는 방법과 표 데이터에 특화된 임베딩 레이어와 트랜스포머 레이어를 추가하는 모델의 구조를 변형하는 방법을 적용하였다. 적대적 학습을 적용했을 때는 표와 관련된 특화된 임베딩을 추가하지 않는 구조의 모델에서 성능이 향상되는 것을 확인했으며, 표에 특화된 트랜스포머 레이어를 추가하고 추가된 레이어가 표에 특화된 임베딩을 추가로 입력받도록 했을 때, 모든 도메인의 데이터에서 가장 향상된 성능을 보였다.

특징 최소화와 선택을 이용한 욕창 발생 예측을 위한 중요 혈액 특징값 예측

김연희, 정호열, 최장환

http://doi.org/10.5626/JOK.2023.50.12.1054

욕창은 한번 발생하면 치료가 어려울 뿐만 아니라 치료 과정에서 막대한 경제적 비용이 발생한다. 그러므로 욕창의 발생을 예측하는 것은 환자의 고통 측면과 경제적 측면에서 중요하다. 본 연구에서는 척수손상환자의 혈액검사를 통해 얻은 임상 정보들과 욕창 간의 상관관계를 분석하여 욕창 예측에 있어 유의미한 특징 정보를 제공한다. 특징 선택 기법에서 주로 쓰이는 피어슨, 스피어만, 켄달타우의 상관계수를 비교 분석하였을 뿐만 아니라, 머신러닝 기법인 XGBoost와 LightGBM을 사용하여 특징의 중요도를 구하였다. 마지막으로, 특징의 중요도 관점에서 상위 5개의 특징들을 입력 값으로 활용한 장단기메모리 모델을 통해 다른 주요 특징들을 예측하게 한 결과, 우수한 예측력을 보이는 것을 확인하였다. 본 연구결과를 통해 의료인들에게 욕창 조기 예측 모델에 있어 주요한 임상 특징들에 대한 가이드라인을 제공할 수 있을 것으로 기대된다.

클라우드 컴퓨팅 환경에서의 자원 효율적 가상머신 배치를 위한 더브테일 사용량 예측 모델

강형빈, 유현진, 김정빈, 정희석, 신재혁, 노서영

http://doi.org/10.5626/JOK.2023.50.12.1041

기존의 IT 서비스들이 클라우드로 이주함에 따라, 클라우드 컴퓨팅 환경에서의 자원 효율적 운영은 중요한 문제로 대두되고 있다. 이에 데이터 센터의 추가적인 설비 없이 자원의 효율을 증가시킬 수 있는 가상머신 배치(Virtual Machine Placement)에 관한 연구가 진행되어왔다. 본 논문에서는 가상머신을 배치하기 적합한 호스트(Host)를 선정하여 배치하는 방법으로 사용량 예측 모델을 사용할 것을 제안한다. 기존의 사용량 예측 모델의 단점을 개선한 더브테일 사용량 예측 모델은 호스트에 실행되는 가상머신의 CPU, 디스크, 메모리 사용량 등의 지표들을 측정하고, 시계열 데이터로 변환해 딥러닝 모델을 사용해 특징을 추출한다. 이를 가상머신 배치에 활용함으로써 호스트의 자원을 효율적으로 사용하고, 가상머신을 적절하게 로드 밸런싱 할 수 있다.

ELM 알고리즘을 이용한 팔굽혀펴기 행동의 방향별 동작 인식률에 관한 비교 분석

김상웅, 류재영, 정지우, 김동영, 채영호

http://doi.org/10.5626/JOK.2023.50.12.1031

본 논문에서는 ELM 알고리즘을 이용한 팔굽혀펴기 행동의 방향별 동작 인식 시스템을 제안한다. 인식되는 과정은 세 부분으로 구성된다. 첫 번째는 모션 데이터를 읽는 과정이다. 이 과정에서 모션 캡처 시스템에서 얻은 데이터가 시스템의 메모리에 입력된다. 그런 다음, 시스템은 모션 데이터로부터 특징벡터를 추출한다. 모션 데이터의 쿼터니언 데이터 값으로부터 변환된 3차원 위치 데이터는 시스템의 X-Y평면, Y-Z 평면, Z-X 평면에 투영되고, 그 값들은 최종 특징 벡터로 사용된다. 각 평면에 투영된 피쳐 벡터는 서로 다른 ELM을 학습하고 총 3개의 ELM이 학습된다. 마지막으로 학습된 각 ELM에 테스트 데이터를 입력하여 최종 인식 결과 값을 도출한다. 모션 데이터를 획득하기 전에 컴퓨터에 트레이닝 할 데이터셋으로 네 가지의 팔굽혀펴기 동작을 선정하였고, 이를 혼합하여 10가지의 동작을 선정하여 컴퓨터에 테스트 할 데이터 셋을 구축했다.

심층 신경망과 랜덤포레스트를 이용한 유전암 관련 단일 염기 변이의 병원성 예측

이다빈, 김선화, 강문종, 홍창범, 황규백

http://doi.org/10.5626/JOK.2023.50.9.746

최근 유전자 검사의 보급으로 인해 개인의 유전자 변이를 탐색하고, 병원성 정보를 통해 유전적 질병을 진단 및 예방하는 것이 가능해졌다. 하지만, 밝혀진 변이 중 병원성 정보가 있는 것의 수는 상당히 적다. 이러한 문제점을 해결하기 위해 기계학습을 통해 변이의 병원성을 예측하는 방법이 제안되었다. 본 논문에서는 심층 신경망과 기존 연구들에서 널리 사용되었던 랜덤포레스트 및 로지스틱회귀를 변이 병원성 예측에 적용 및 비교한다. 실험 데이터는 유전암과 관련된 유전자 내에 존재하는 1,068 개의 단일 염기 변이들로 구성된다. 초매개변수 설정을 위해 생성된 100 개의 무작위 데이터 집합에 대한 실험 결과 랜덤 포레스트가 area under the precision recall curve에서 가장 우수한 성능을 보였다. 15 개의 홀드아웃 유전자 집합에 대한 실험에서는 심층 신경망이 평균적으로 가장 우수한 결과를 보였으나 두 번째로 우수한 랜덤포레스트와의 성능 차이는 유의미하지 않았다. 또한 로지스틱회귀는 두 모델에 비해 통계적으로 유의미하게 낮은 성능을 보였다. 결론적으로 심층 신경망과 랜덤포레스트가 로지스틱 회귀에 비해 유전암 관련 단일 염기 변이의 병원성 예측에 일반적으로 더 적합함을 알 수 있었다.

기계학습을 활용한 화합물의 약인성 간 손상 예측 방법 연구

이소연, 유선용

http://doi.org/10.5626/JOK.2023.50.9.777

약인성 간 손상은 임상시험용 의약품이 시장에 유통되는 것을 막는 요인 중 하나이다. 따라서 사전에 화합물의 약인성 간 손상 위험 평가가 필요하다. 안전성을 평가하기 위해 생체 내 (in vivo) 및 시험관 내 시험 방법(in vitro)이 사용되지만 이들은 시간과 비용이 많이 든다. 본 연구에서는 위의 문제를 극복하고자 random forest, light gradient boosting machine, logistic regression 모델을 제안한다. 모델은 입력으로 화합물의 분자 구조와 물리화학적 특징을 사용하고 출력으로 약인성 간 손상을 예측한다. 최적의 모델은 평가 지표에서 전반적으로 좋은 성능을 보인 random forest였다. 본 연구에서 제안된 모델은 신약 후보물질의 잠재적인 간 손상을 미리 파악함으로써 신약 개발 과정에 도움을 줄 수 있을 것으로 기대된다.

협동 로봇 모션 결함 데이터셋 구축을 위한 비전 기반 위치 편차 모의 결함 주입 방법

윤동희, 유동연, 이정원

http://doi.org/10.5626/JOK.2023.50.9.795

스마트팩토리의 핵심 설비인 협동 로봇에는 기기의 고장을 진단하기 위해 내부, 외부 센서로부터 데이터를 실시간으로 수집하고 결함을 예측하는 데이터 기반 결함 진단 방법이 도입되고 있다. 데이터 기반 결함 진단 방법은 학습을 위한 많은 양의 데이터가 필요하며, 특히 결함 상태로 레이블링된 대량의 데이터가 필수적으로 요구된다. 그러나, 산업 현장에서 실제 결함 데이터를 대량으로 얻기 어렵다. 따라서 본 논문에서는 비전 센서를 기반으로 협동 로봇 결함 상태의 출력을 정상 상태의 출력을 비교 분석하고, 분석된 출력 신호간의 편차를 바탕으로 모의 결함 주입 방법을 제안한다. 실제 결함 상태에서 수집된 협동 로봇 데이터는 제안하는 모의 결함 주입 상태에서 수집된 데이터로 대체 가능하다. 결함 주입 데이터로 학습된 모델의 성능과 실제 결함 데이터로 학습된 모델의 성능 비교 결과, 정확도의 경우 평균 0.97, 0.98로 차이가 거의 없음을 확인하여 제안하는 결함 주입 방법의 효용성을 검증하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr