디지털 라이브러리[ 검색결과 ]
Opt Tree: Optane DCPM 내부 버퍼를 활용한 쓰기 최적화 트리
http://doi.org/10.5626/JOK.2021.48.7.742
최근 상용화된 비휘발성 메모리인 Intel사의 Optane DC Persistent Memory는 캐시 라인 단위 또는 워드 단위의 메모리 접근 명령을 256바이트 단위로 처리하는 내부 버퍼가 존재한다. 본 논문에서는 Optane DCPM의 내부 버퍼를 활용하는 인덱스인 Opt Tree를 제안한다. Opt Tree는 트리의 노드를 256 바이트 단위의 여러 작은 블록으로 나누어 노드 내의 데이터들을 분할 저장하며, 노드 접근 시에는 2개의 블록만을 접근하는 삽입 및 탐색 알고리즘을 가진다. Opt Tree는 Optane DCPM의 내부 버퍼에 친화적인 디자인과 알고리즘을 바탕으로 기존의 비휘발성 메모리를 위한 인덱스들보다 더 나은 삽입 성능을 보여준다.
방대한 시공간 IoT 센서 데이터의 효율적인 검색을 위한 트라이 기반 색인 방법
추하원, 서영균, 이용, 박민우, 장래영, 이상환, 송사광
http://doi.org/10.5626/JOK.2020.47.12.1199
통신 기술과 컴퓨팅 능력의 발전으로 인해 사물인터넷 센서가 여러 분야에 보편화되면서 대량의 시공간 사물 데이터가 끊임없이 생성되고 있다. 고차원적인 추가 분석을 위해, 그러한 거대한 시공간 사물 데이터를 저장 시스템에 수집하는 것은 고도화된 저장 기술 덕분에 그리 어렵지 않게 되었다. 그럼에도 불구하고, 사물데이터의 거대한 양과 복잡한 시공간성으로 인해 질의된 사물 데이터를 신속히 찾아내는 것은 여전히 도전적인 문제로 여겨져 왔다. 본 논문은 이러한 문제점을 해결하기 위해 시공간성을 가진 대용량 사물 데이터에 대해 효율적인 검색을 지원하는 색인 방법인 ST-Trie를 제안한다. ST-Trie의 핵심 아이디어는 시공간 지역성을 고려하여 3차원 시공간 정보를 1차원 데이터로 부호화한 다음, 이를 논리적인 트라이(Trie) 구조로 조직하는 것이다. 제안된 방법인 ST-Trie에 대한 실제 사물인터넷 센서로부터 얻은 데이터 셋들을 이용한 실험 결과, ST-Trie가 질의 응답 시간에 관하여 비교된 복합 색인보다 최대 92배 더 높은 성능을 보였다. 특히, 우리는 ST-Trie가 주어진 시간 범위가 커질수록 더 확장성 있는 검색을 수행하였음을 확인하였다.
스파크 환경에서 내용 기반 이미지 검색을 위한 효율적인 분산 인-메모리 고차원 색인 기법
최도진, 박송희, 김연동, 위지원, 이현병, 임종태, 복경수, 유재수
http://doi.org/10.5626/JOK.2020.47.1.95
영상에서 범죄 행위 모니터링 및 추적을 위해서 이미지 내에 포함된 객체를 검색하는 내용 기반 검색이 활용되고 있다. 본 논문에서는 내용 기반 이미지 검색을 위해 이미지 또는 객체에서 추출한 대용량 특징 벡터를 이용한 유사도 검색을 지원하는 분산 인-메모리 기반 고차원 색인 기법을 제안한다. 대용량 분산 처리를 위해 빅데이터 플랫폼인 스파크를 활용하고 효율적인 분산 질의 처리 할당을 위해 마스터/슬레이브 모델을 활용한다. 마스터에서는 데이터 및 질의 분배를 수행하고 슬레이브에서는 데이터를 색인한다. 더불어 기존 분산 고차원 색인 기법에서 k-최근접 질의 처리의 성능 문제를 해결하기 위해서 밀집도 및 탐색 비용을 고려한 k-최근접 질의 최적화 기법을 제안한다. 제안하는 기법의 우수성 및 타당성을 입증하기 위해 다양한 성능 평가를 수행한다.
LSI를 이용한 차원 축소 클러스터 기반 키워드 연관망 자동 구축 기법
http://doi.org/10.5626/JOK.2017.44.11.1236
본 논문은 기존의 TextRank 알고리즘에 상호정보량 척도를 결합하여 군집 기반에서 키워드 추출하는 LSI-based ClusterTextRank 기법과 추출된 키워드를 Latent Semantic Indexing(LSI)을 이용한 연관망 구축 기법을 제안한다. 제안 기법은 문서집합을 단어-문서 행렬로 표현하고, 이를 LSI를 이용하여 저차원의 개념 공간으로 차원을 축소한다. 그 다음 k-means 군집화 알고리즘을 이용하여 여러 군집으로 나누고, 각 군집에 포함된 단어들을 최대신장트리 그래프로 표현한 후 이에 근거한 군집 정보량을 고려하여 키워드를 추출한다. 그리고나서 추출된 키워드들 간에 유사도를 LSI 기법을 통해 구한 단어-개념 행렬을 이용하여 계산한 후, 이를 키워드 연관망으로 활용한다. 제안 기법의 성능을 평가하기 위해 여행 관련 블로그 데이터를 이용하였으며, 제안 기법이 기존 TextRank 알고리즘보다 키워드 추출의 정확도가 약 14% 가량 개선됨을 보인다.
대용량 XML 문서의 키워드 검색을 위한 레이블링 기법
XML 문서가 점차 복잡해지면서 XML문서의 구조를 알 필요 없이 키워드로만 검색을 하는 키워드 검색 방식이 많이 사용되고 있다. XML문서 내에서 키워드 검색 방식을 사용하기 위해서는 문서 내의 모든 키워드에 레이블을 부여해야 하며, 구조적인 정보 또한 레이블 내에 충분히 표현해야한다. 하지만 기존 레이블링 방법들은 색인을 위한 단순정보만 레이블링 하거나, 증가하는 XML문서의 크기에 대응하기 어려운 형태로 구조적인 정보를 표현한다. 이는 XML문서가 커질수록 키워드검색성능이 떨어지거나, 공간사용량이 기하급수적으로 증가하는 문제를 야기한다. 따라서 본 논문에서는 대용량 XML문서에 대한 키워드 검색 시 기존 레이블링 방식이 가지고 있던 문제점을 보완하는 새로운 레이블링 방식인 RPLS(Repetitive Prime Labeling Scheme)을 소개한다. 이 방법은 기존 소수 레이블방식을 개선하여 상위 레벨의 소수를 하위 레벨에서 반복 사용할 수 있도록 하여 레이블링을 위해 생성해야하는 소수의 수를 감소시키도록 한 것이다. 본 논문에서는 대용량 XML 문서의 키워드검색에 대한 RPLS 스킴의 효율성 검증을 위해 기존 레이블링 기법들과의 성능 비교 실험 결과도 제시한다.