디지털 라이브러리[ 검색결과 ]
자이로 센서 데이터를 활용한 양치 위치 추정 및 비지도 학습 클러스터링을 통한 검증
김도윤, 권민욱, 백승주, 윤혜린, 임대연, 조은아, 류승재, 김영욱, 김진현
http://doi.org/10.5626/JOK.2023.50.12.1143
구강 건강은 수명과도 직접적 관련을 갖는 중요한 건강 지표다. 이러한 이유로 영유아부터 노인에 이르기까지 구강 건강은 국민 건강의 핵심으로 자리를 잡았다. 이러한 구강 건강의 기본은 올바른 양치 습관이다. 하지만 권장되는 올바른 양치 방법은 습관화하기 쉽지 않으며, 그러한 이유로 구강 건강에 해로운 영향을 준다. 본 논문은 올바른 양치 방법을 추적하기 위한 저비용의 IMU 센서를 통해 양치 구역을 구별하는 방법을 제안하고, 머신러닝의 클러스터링 알고리즘으로 양치 구역의 추정 방법의 정확성을 평가한다. 본 논문에서는 IMU 센서의 자이로 센서만을 사용하여 칫솔 자세만으로 양치 구역을 판단하는 방법을 제안한다. 이 논문에서는 비교적 저렴한 6축 IMU 자이로 센서 데이터만으로도 80.6%의 정확도로 사용자 양치 부위를 추정할 수 있음을 보였다. 또한, 이러한 데이터에 클러스터링 알고리즘을 적용하고 클러스터링 된 데이터를 활용하여 Logistic regression을 훈련하여 양치 구역을 추정한 결과 86.7%의 정확도로 얻을 수 있었으며 이를 통해 클러스터링이 효과적임과 함께 본 논문에서 제안한 칫솔 자세 기반의 양치 구역 추정이 효과가 있음을 보였다. 결론적으로 본 양치 구역 추정 알고리즘이 비교적 적은 비용의 칫솔로 기능이 구현될 수 있으며, 이를 통해 개인 양치 습관을 분석하고 개선함으로써 구강 건강 유지하는데에 도움이 될 것으로 기대할 수 있다.
그래프 신경망 기반 딥 k-평균 노드 클러스터링
http://doi.org/10.5626/JOK.2023.50.12.1153
최근 그래프 신경망(graph neural network, GNN)을 사용한 그래프 노드 클러스터링(node clustering) 기법들이 활발히 연구되고 있다. 이들 연구 대부분은 GNN으로 노드들을 저차원 벡터들로 임베딩(embedding)한 뒤, 이 임베딩 벡터들을 기존의 클러스터링 알고리즘으로 클러스터링한다. 하지만 이 방식은 GNN을 훈련시킬 때 클러스터링이라는 최종 목표를 전혀 고려하지 않기 때문에 최적의 클러스터링 결과를 낸다고 보기 어렵다. 따라서 본 논문은 k-평균 클러스터링이라는 최종 목표를 고려하여 GNN을 반복적으로 훈련시키고 그 결과로 얻어진 노드들의 임베딩 벡터들로 노드들을 k-평균 클러스터링하는 딥 k-평균 클러스터링 기법을 제안한다. 제안 방법은 GNN을 훈련시킬 때 노드들의 유사도뿐만 아니라 k-평균 클러스터링의 손실까지 고려한다. 실데이터를 사용한 실험 결과 제안 방법은 기존 방법에 비해 k-평균 클러스터링 결과의 품질을 향상함을 확인하였다.
단일 세포 분화 궤적 추론을 위한 시계열 다중 클러스터링 기법
http://doi.org/10.5626/JOK.2022.49.10.838
시계열 단일 세포 전사체 데이터에서 유전자 발현 정보는 중요한 세포의 분화 변화 시점을 관찰하기 위해 생성되며 실험조건과 관련하여 중요한 생물학적 현상 설명이 가능하다. 최근 시계열 단일 세포 전사체 데이터가 급증함에 따라 세포주기 및 분화와 같은 세포의 다양한 동적인 변화에 대한 연구가 활발히 진행되고 있다. 특히, 세포 분화에 대하여 단일 세포 수준에서의 시계열 분석은 시간 축으로의 변화 관찰이 가능하여 단일 시점에 비해 생물학적 해석이 유리하다. 본 논문에서는 시계열 단일 세포 전사체 데이터를 활용해 유전체 수준에서 시간 정보를 고려하여 세포 궤적을 추론하는 다중 클러스터링 기법을 제안한다. 해당 기법을 사용해 인간 뇌세포 분화과정에 대한 유전자 발현 데이터를 분석한 결과 사전 연구에서 밝혀낸 생물학적인 결과와 유사한 결과를 찾아냈다.
K-means 클러스터링을 사용한 SVD 기반의 교차 도메인 추천
http://doi.org/10.5626/JOK.2022.49.5.360
교차 도메인 추천은 다른 도메인에 있는 관련 사용자 정보 데이터와 아이템 데이터 공유를 통해 해결하고자 하는 방법이다. 사용자 중복이 많은 온라인 쇼핑몰이나 유튜브(YouTube) 또는 넷플릭스 (NetFlix)와 같이 멀티미디어 서비스 컨텐츠에서 주로 사용된다. K-means 클러스터링을 통해 사용자 데이터와 평점을 기반으로 군집화를 실시하여 임베딩을 생성한다. 그 결과를 다층 신경망(Multi Layer Neural Network)를 통해 학습시킨 후, 사용자 만족도를 예측한다. 그 후 협업 필터링 기법인 행렬 분해(matrix factorization)를 이용하여 사용자에게 맞는 아이템들을 추천한다. 이 연구를 통해 추천함으로써 더 적은 시간적 비용으로 초기 사용자 문제에 대해 예측이 가능하고, 사용자들의 만족도를 높일 수 있다는 결과를 실험을 통해 보여주었다.
문서 쌍 유사도 판별을 위한 문장 상호 관계 및 그래프 기반 모델의 앙상블
http://doi.org/10.5626/JOK.2021.48.11.1184
뉴스 기사와 같은 문서 클러스터링에서 두 문서 간의 유사도는 클러스터의 특성을 결정하는 중요한 부분 중 하나이다. 기존 딥러닝 기반 접근 방법인 시퀀스 유사도 측정 모델은 문서 단위에서 나타나는 긴 문맥을 반영하지 못하는 문제점을 가지고 있다. 본 연구에서는 뉴스 클러스터링에 적합한 문서 쌍 유사도 모델을 구성하기 위해 상호 작용 기반 접근, 그래프 기반 접근 방법을 사용한다. 상호 작용 기반 접근에서는 문서 쌍 내 다수의 문장 표현들 간의 유사도 정보를 종합해 전체 문서 쌍의 유사도를 측정하는 네 가지 유사도 모델을 제안한다. 기존 접근 방법들인 SVM, HAN에 비해 두 가지 접근 방법에서 높은 성능이 나타남을 확인했다. 그래프 기반 접근에서는 입력에 사용되는 자질의 종류와 신경망의 깊이에 따른 성능 변화를 확인했다. 또한, 상이한 두 접근 방법이 갖는 예측양상의 차이와 상호보완성을 오류 분석과 앙상블을 통해 확인했다.
LDA와 WMD 기반의 공간 변환을 이용한 효과적인 문서 클러스터링 방법
http://doi.org/10.5626/JOK.2021.48.9.1052
기존의 TF-IDF 기반의 문서 클러스터링 기법은 문서의 문맥 정보인 co-occurrence와 word-order에 대한 정보를 충분히 활용하지 못하고, “차원의 저주”로 인해 성능이 저하되는 문제가 있다. 이를 극복하기 위해서 워드 임베딩 벡터를 가중 평균을 하거나, Word Mover‘s Distance(WMD)를 사용한 기법들이 제안되었는데 제안된 기법들은 문서 간 분류에서는 좋은 성능을 보이지만, 문서 집단을 파악해야 하는 문서 클러스터링 에서는 좋은 성능을 보이지 못했다. 따라서 본 연구에서는 LDA를 활용하여 문서집단을 집단의 대표 문서인 토픽 문서로 새롭게 정의하여 토픽 문서를 기반으로 WMD를 계산하는 것으로 기존 문제를 해결한다. 하지만 WMD가 많은 계산량을 필요로 하기 때문에, 이를 해결하기 위해 각 문서를 토픽 문서와의 WMD값을 축으로 하는 저차원 공간으로 매핑하는 하는 것으로 계산량을 줄이면서 충분한 성능을 보이는 공간 변환 기법을 제시한다.
지식 그래프 임베딩 및 적응형 클러스터링을 활용한 오류 트리플 검출
http://doi.org/10.5626/JOK.2020.47.10.958
최근 인터넷의 발전으로 정보의 양이 늘어나면서 대용량 지식 그래프를 이용한 연구가 활발히 이루어지고 있다. 또한 지식 그래프가 다양한 연구와 서비스에 활용됨에 따라 양질의 지식 그래프를 확보해야 하는 필요성이 대두되고 있다. 하지만 양질의 지식 그래프를 얻기 위해 지식 그래프 내 오류를 검출하는 연구가 부족하다. 오류 트리플 검출을 위해 임베딩과 클러스터링을 사용한 이전 연구가 좋은 성능을 나타냈다. 하지만 클러스터 최적화 과정에서 일괄적으로 동일한 임계값을 사용하여 각 클러스터의 특성을 고려하지 못하는 문제가 존재하였다. 본 논문에서는 이러한 문제를 해결하고자 지식 그래프 내 오류 트리플 검출을 위해 지식 그래프에 대한 임베딩과 함께 각 클러스터에 대한 최적의 Threshold를 찾아 적용함으로써 클러스터링을 진행하는 적응형 클러스터링 모델을 제안한다. 본 논문에서 제안하는 방법의 성능을 평가하기 위해 DBpeida, Freebase와 WiseKB 세 가지 데이터셋을 대상으로 기존 오류 트리플 검출 연구와 비교 실험을 진행하였으며 F1-Score를 기준으로 평균 5.3% 높은 성능을 확인하였다.
보로노이 다이어그램을 이용한 효율적 차분 프라이버시 K-평균 클러스터링 알고리즘
http://doi.org/10.5626/JOK.2020.47.9.879
최근 데이터에 대한 분석 결과로부터 개인 정보가 유출되는 것을 막기 위한 방법들이 연구되고 있다. 그중 차분 프라이버시(differential privacy)는 엄격하고 증명될 수 있는 개인 정보 보호를 보장하기 때문에 널리 연구되고 있는 개인 정보 보호의 표준이다. 본 논문에서는 2차원 데이터에 대하여 보로노이 다이어그램(Voronoi diagram)을 기반으로 차분 프라이버시를 보장하면서 K-평균 클러스터링 결과를 공개하기 위한 알고리즘을 제안한다. 기존 알고리즘은 클러스터링의 정확도와 수행 속도가 샘플 개수에 따라 변화하여 데이터에 적합한 샘플 개수를 선택하기 어렵다는 단점이 있으나 제안하는 알고리즘은 그러한 파라미터를 필요로 하지 않으면서 정확한 클러스터링 결과를 빠르게 계산할 수 있다. 제안하는 알고리즘의 성능에 대해 실생활 데이터를 이용한 실험을 통해 검증한다.
네트워크의 중첩 클러스터링 구조를 고려한 정보 확산 모델
http://doi.org/10.5626/JOK.2020.47.4.422
정보 전파(information diffusion) 연구란 네트워크에서 특정 노드(initial adopters)가 새로운 정보를 습득할 것으로 가정하고, 그로부터 다른 노드로 퍼지는 정보의 전파 양상(cascading behavior)에 대한 메커니즘을 모델링하는 것이다. 대부분의 기존 정보 전파 연구들은 노드가 하나의 클러스터(cluster)에만 속한다고 가정하며, 이 가정에 의해 클러스터가 정보 전파를 방해함을 보여 왔다. 하지만, 실제 네트워크에는 노드가 여러 클러스터에 속할 수 있다. 즉, 클러스터는 중첩될 수 있다. 본 연구는 네트워크에 중첩 클러스터(overlapping cluster)가 존재할 때의 정보 전파 양상에 대해 소개한다. 새로운 정보를 습득한 노드가 네트워크의 중첩 클러스터에 속하거나 네트워크의 각 노드에 대해 정보 공존성(compatibility)을 허용하였을 때 클러스터는 정보 전파의 방해요소가 아님을 보인다. 네 개의 실제 네트워크 데이터 셋(dataset)에서 본 연구에서 제시한 모델과 이론을 검증한다.
역방향 인덱스 기반의 저장소를 이용한 이상 탐지 분석
http://doi.org/10.5626/JOK.2018.45.3.294
정보통신 기술의 발전에 따른 새로운 서비스 산업의 출현으로 개인 정보 침해, 산업 기밀 유출등 사이버 공간의 위험이 다양화 되어, 그에 따른 보안 문제가 중요한 이슈로 떠오르게 되었다. 본 연구에서는 기업 내 개인 정보 오남용 및 내부 정보 유출에 따른, 대용량 사용자 로그 데이터를 기반으로 기존의 시그니처(Signature) 보안 대응 방식에 비해, 실시간 및 대용량 데이터 분석기술에 적합한 행위 기반이상 탐지방식을 제안하였다. 행위 기반 이상 탐지방식이 대용량 데이터를 처리하는 기술을 필요로 함에 따라, 역방향 인덱스(Inverted Index) 기반의 실시간 검색 엔진인 엘라스틱서치(Elasticsearch)를 사용하였다. 또한 데이터 분석을 위해 통계 기반의 빈도 분석과 전 처리 과정을 수행하였으며, 밀도 기반의 군집화 방법인 DBSCAN 알고리즘을 적용하여 이상 데이터를 분류하는 방법과 시각화를 통해 분석을 간편하게 하기위한 한 사례를 보였다. 이는 기존의 이상 탐지 시스템과 달리 임계값을 별도로 설정하지 않고 이상탐지 분석을 시도하였다는 것과 통계적인 측면에서 이상 탐지 방식을 제안하였다는 것에 의의가 있다.