디지털 라이브러리[ 검색결과 ]
GPU 가속 스케줄링 및 연산 축소에 기반한 효율적인 동적 그래프 처리
송상호, 최지현, 차동현, 이현병, 최도진, 임종태, 복경수, 유재수
http://doi.org/10.5626/JOK.2024.51.12.1125
최근 대용량 동적 그래프를 효율적으로 처리하기 위해 GPU를 활용하는 연구가 활발히 진행되고 있으며, 동적 그래프 처리 시 같은 데이터가 반복적으로 전송되고 처리되는 문제가 발생하고 있다. 본 논문에서는 메모리가 제한된 GPU 환경에서 대규모 동적 그래프를 효율적으로 처리하기 위한 동적 스케줄링 방법과 연산 축소 방법을 제안한다. 동적 스케줄링 방법은 동적 그래프를 분할하여 각 파티션을 활성 정점과 예비 활성 정점을 고려한 스케줄링 방식으로 GPU에 배치함으로써 처리 성능을 극대화한다. 또한, 그래프의 변화 양상을 반영하기 위해 스냅샷을 활용한다. 연산 축소 방법은 스냅샷을 통해 동적 그래프에서 중복된 간선 및 정점의 변경을 감지하여 불필요한 연산을 줄임으로써 GPU의 연산량과 데이터 전송 비용을 최소화하는 기법이다. 이를 통해 동일한 간선이나 정점에 대한 중복 연산을 방지하여 성능을 향상시킨다. 다양한 성능 평가 결과 기존 정적 그래프 처리 기법 대비 평균 280%, 기존 동적 그래프 처리 기법 대비 평균 108%의 성능 향상을 확인하였다.
자기 교사 학습 모델의 특장점 분석과 사진 분류 및 객체 탐지 성능 분석 연구
http://doi.org/10.5626/JOK.2024.51.7.609
최근, 교사 학습 기반의 인공지능 분야가 급속도로 발전하고 있다. 그러나 교사 학습은 정답 값이 지정된 데이터집합에 의존하기 때문에, 정답 값을 확보하기 위한 비용이 커진다. 이러한 문제점을 해 결하기 위해 정답 값없이 사진의 일반적인 특징을 학습할 수 있는 자기 교사 학습(Self-supervised learning)이 연구되고 있다. 본 논문에서는 다양한 자기 교사 학습 모델을 학습 방식과 백본 네트워크 기 준으로 분류하고, 각 모델의 장단점, 성능을 비교 분석하였다. 성능 비교를 위해 사진 분류 작업을 사용하 였다. 또한 전이 학습의 성능을 비교하기 위해 세밀한 예측 과업의 성능 또한 비교 분석하였다. 그 결과, 긍정적 쌍만 사용하는 모델이 노이즈를 최소화하여 부정적인 쌍을 같이 사용하는 모델들보다 높은 성능을 달성하였다. 또한 세밀한 예측의 경우 이미지를 마스킹하여 학습하거나 멀티스테이지 모델 등을 활용하여 지역적인 정보를 추가로 학습하는 방식이 더욱 높은 성능을 달성한 것을 확인하였다.
탐색적 데이터 분석과 기계학습을 통한 상부 요로감염 환자 Ciprofloxacin 항생제 내성 예측 연구
http://doi.org/10.5626/JOK.2023.50.3.263
응급의학과 의사는 요로감염 환자에 대해 임상적으로 감염 병원균 또는 항생제 내성 프로파일이 확인되기 전에 항생제를 선택해야 하는 경험적 치료전략을 사용한다. 지역사회의 요로 병원균의 항생제 내성 증가를 우려하였을 때 경험적 치료는 도전적인 과업이다. 본 연구는 단일 기관 후향적 연구로써, 응급실에서 상부 요로 감염 진단을 받은 환자를 대상으로 기계학습 알고리즘을 통한 항생제 내성 예측 방법을 제안한다. 먼저, 통계적 검정 방법과 게임 이론적 방식 기반의 SHAP(SHapley Additive exPlanation)을 수행하여 유의미한 예측 변수를 선택한다. 그리고 4개의 분류기의 성능을 비교하고 예측 확률 임계치 조절을 통해 의사의 경험적 치료를 보조할 수 있는 알고리즘을 제안한다. 결과적으로, SHAP를 통해 선별된 전체 예측 변수의 65%만을 사용한 SVM 분류기는 실험에 사용된 모든 분류기 중에 AUROC 0.775로 가장 높은 성능을 보였고, 모든 예측 변수를 사용했을 때보다 AUROC 0.015 증가했다. 그리고 예측 확률 임계치를 조절 과정을 통해 의사의 경험적 치료의 민감도를 98% 수준으로 유지하면서 특이도가 3.9배 향상된 분류 정확도를 달성했다.
생성 기반 질의응답 채팅 시스템 구현을 위한 지식 임베딩 방법
http://doi.org/10.5626/JOK.2018.45.2.134
채팅 시스템은 사람의 말을 기계가 이해하고 적절한 응답을 하는 시스템이다. 채팅 시스템은 사용자의 간단한 정보 검색 질문에 대답해야 하는 경우가 있다. 그러나 기존의 생성 채팅 시스템들은 질의응답에 필요한 정보인 지식 개체(트리플 형태 지식에서의 주어와 목적어)의 임베딩을 고려하지 않아 발화에 나타나는 지식 개체가 다르더라도 같은 형태의 답변이 생성되었다. 본 논문에서는 생성 기반 채팅시스템의 질의응답 정확도를 향상시키기 위한 지식 임베딩 방법을 제안한다. 개체와 유의어의 지식 임베딩을 위해 샴 순환 신경망을 사용하며 이를 이용해 주어와 술어를 인코딩 하고 목적어를 디코딩하는 sequence-to-sequence 모델의 성능을 향상 시켰다. 자체 구축한 채팅데이터를 통한 실험에서 제안된 임베딩 방법은 종래의 합성곱 신경망을 통한 임베딩 방법 보다 12.48% 높은 정확도를 보였다.
악성코드 및 패커 탐지를 이용한 공격 그룹 판별
http://doi.org/10.5626/JOK.2018.45.2.106
최근 악성코드를 이용한 사이버 공격이 급증하고 있다. 피해가 늘어남에 따라 수 년간 다양한 방식의 악성코드 탐지 기법들이 연구되고 있으며, 최근 공격 그룹 판별을 위한 다양한 프로파일링 등장하고 있다. 본 논문은 악성코드 탐지가 아닌 특정 악성코드를 사용하는 공격 그룹에 대한 판별을 주목적으로 하며, 판별에 각 공격 그룹이 사용하는 악성코드에 대한 문자열 및 코드 시그니처를 이용한다. 탐지 기법을 구현하기 위해 야라(Yara)를 사용하였으며, 공격 그룹에서 주로 사용되는 원격 관리 도구(RAT, Remote Access Tool)를 대상으로 연구를 진행했다. 또한 탐지율 증가를 위하여 악성코드 패킹 여부 확인 및 해제 기술을 추가하였다. 본 논문은 최근 공격 그룹들이 주로 사용하는 원격 관리 도구를 대상으로 악성코드와 패커의 주요 특징 시그니처를 이용해 룰셋(Ruleset)을 작성하고 작성한 룰셋을 기반으로 원격관리 도구 탐지 및 공격 그룹 판별 가능성에 대해 다룬다.
외국인 학습자를 위한 문맥 기반 실시간 국어 문장 교정
http://doi.org/10.5626/JOK.2017.44.10.1087
외국인 유학생과 국내 체류 외국인 등 한국어를 학습하고자 하는 외국인이 지속적으로 증가함에 따라 외국인 한국어 학습자의 교육에 대한 관심이 높아지고 있다. 기존 맞춤법 검사기는 한국인의 사용에 중점을 두고 있어 외국인 한국어 학습자가 사용하기에는 다소 부적절하다. 본 논문에서는 한국어의 문맥 특성과 외국인의 작문 특성을 반영한 한국어 교정 방식을 제안한다. 제안하는 방식에서는 국어 문서에서 자주 사용되는 표현을 추천 교정으로 제시하기 위해 말뭉치를 활용한다. 말뭉치에서 추출된 어절 바이그램에 대한 음절 역색인을 사용하여 입력된 작문에 대한 교정 후보 집합을 얻고, 외국인의 작문 특성을 반영하는 편집거리 계산 방법을 사용하여 순위화된 추천 교정을 제시한다. 구현된 시스템에서는 사용성 향상을 위해 키보드 후킹에 기반한 사용자인터페이스를 제공하여 다른 응용프로그램에서의 입력과 동시에 문장 교정 결과를 얻을 수 있다. 외국인의 작문 환경에 대한 평가에서는 타 시스템에 비해 검출률을 약 45% 향상시켜, 제안된 시스템을 사용하는 경우 외국인 사용자가 스스로 작문 오류를 판단하고 수정할 수 있어 한국어 학습에 많은 도움이 될 것으로 기대된다.
주의집중 및 복사 작용을 가진 Sequence-to-Sequence 순환신경망을 이용한 제목 생성 모델
http://doi.org/10.5626/JOK.2017.44.7.674
대용량의 텍스트 문서가 매일 만들어지는 빅데이터 환경에서 제목은 문서의 핵심 아이디어를 빠르게 집어내는데 매우 중요한 단서가 된다. 그러나 블로그 기사나 소셜 미디어 메시지와 같은 많은 종류의 문서들은 제목을 갖고 있지 않다. 본 논문에서는 주의집중 및 복사 작용을 가진 sequence-to-sequence 순환신경망을 사용한 제목 생성 모델을 제안한다. 제안 모델은 양방향 GRU(Gated Recurrent Unit) 네트워크에 기반 하여 입력 문장을 인코딩(encoding)하고, 입력 문장에서 자동 선별된 키워드와 함께 인코딩된 문장을 디코딩함으로써 제목 단어들을 생성한다. 93,631문서의 학습 데이터와 500문서의 평가 데이터를 가진 실험에서 주의집중 작용방법이 복사 작용방법보다 높은 어휘 일치율(ROUGE-1: 0.1935, ROUGE-2:0.0364, ROUGE-L: 0.1555)을 보였고 사람이 정성평가한 지표는 복사 작용방법이 높은 성능을 보였다.
멀티 코어 확장성을 제공하는 실시간 플래시 저장장치 시뮬레이션
http://doi.org/10.5626/JOK.2017.44.6.566
플래시 저장 장치가 저장 장치로서 널리 사용되면서 성능, 신뢰성, 견고성 등 여러 가지 측면에서 검증이 필요하여 시뮬레이션 방법론이 다양하게 연구되어 왔다. 그 결과 최근까지 플래시 저장장치 시뮬레이터는 기능적 모델링과 시간적 모델링 관점에서 많은 발전이 있었다. 그러나 이러한 발전에도 불구하고 플래시 저장장치의 노화 효과를 평가하기 위해서는 장시간의 테스트 시간을 대폭 단축할 수 있는 방법이 필요하다. 본 논문은 사용자 설정에 따라 시뮬레이션 속도를 자유롭게 조절할 수 있는, 소위 멀티 코어 확장성을 제공하는 실시간 시뮬레이션 방법을 제안한다. 제안하는 방법은 임의의 CPU 코어 개수가 주어져도 그에 맞는 확장 가능한 시뮬레이션 속도를 제공하며, 그 속도에 관계없이 항상 정확한 시뮬레이션 결과를 보장한다. 본 논문은 리눅스 커널 모듈 형태로 구현한 시뮬레이터를 이용하여 멀티코어 확장성과 모델의 정확성을 실험적으로 검증한다.
심층 신경망을 이용한 보행자 검출 방법
보행자 검출은 수년간 광범위하게 연구된 문제이며, 자율주행 자동차와 운전자 보조시스템에서 매우 중요한 역할을 차지하고 있다. 특히, 계층적 분류기[1]와 Histogram of Gradient[2]특징벡터 등 영상 기반의 보행자 검출기법과 ConvNet같이 deep model을 이용하여 검출하는 기법들이 연구되었고 검출성능 은 꾸준히 상승하였다. 하지만 보행자 검출은 작은 오차에도 생명과 연관된 문제를 야기할 수 있기 때문에, 자율주행 시스템의 보행자검출 오차율은 더욱 낮출 필요가 있다. 따라서 본 연구에서는 Faster R-CNN 응용 기법에 새로 개발한 데이터 학습 모델을 적용하여 보행자 검출 오류를 줄이는 기법을 제안한다. 그리고 기존에 제안된 모델들과 비교를 통해, 보행자 검출에 있어 제안된 방법의 우수성을 보이고자 한다.
의학문서 질의응답을 위한 정답 스닛핏 검색
온라인 의학 문서의 폭발적 증가와 함께 질의응답 시스템에 대한 필요성이 늘어나고 있다. 최근에는 기계학습에 기반 한 질의응답 모델들이 다양한 영역에서 좋은 결과를 보여 왔다. 그러나 의학 영역에서 질의응답 모델들은 학습 데이터의 부족으로 인해 여전히 정보 검색 기술에 기반을 두고 있다. 본 논문에서는 다양한 정보검색 기술에 기반 한 의학문서 질의응답용 정답 스닛핏 검색 모델을 제안한다. 제안 모델은 먼저 클러스터 기반 검색 기술을 이용하여 의학 문서로부터 많은 정답 후보 문장을 검색한다. 그리고 다양한 문장 검색 기술들에 기반 한 정답 후보 문장 재순위화 모델을 사용하여 신뢰성 있는 정답 스닛핏을 생성한다. BioASQ 4b 데이터를 이용한 실험에서 제안 모델은 기존 모델보다 좋은 성능(MAP0.0604)을 보였다.