48권 2호,
2월 2021
디지털 라이브러리
PCIe 기반 FPGA 보드를 위한 DMA 컨트롤러 구현 및 분석
http://doi.org/10.5626/JOK.2021.48.2.141
FPGA는 회로를 필요에 따라 횟수에 제한 없이 재구성할 수 있는 장치로, 딥 러닝, 빅데이터 처리 등의 응용에 높은 성능과 에너지 효율을 보인다. 주요 FPGA 제작 업체들은 FPGA를 가속기로 활용하기 위해 PCIe 기반 보드에 FPGA를 탑재하여 출시하고 있다. 호스트 시스템과 FPGA가 대용량 데이터를 주고받기 위해서는 FPGA 내부의 DMA 컨트롤러가 DMA를 수행해야 한다. 그러나 기존의 DMA 컨트롤러는 PCIe의 대역폭을 모두 활용하지 못하거나, 단방향 대역폭만 활용하는 것으로 밝혀졌다. 본 논문에서는 PCIe의 양방향 대역폭을 활용하는 DMA 컨트롤러 구조를 제안하고, Intel Stratix 10 FPGA에 구현하였다. 구현한 컨트롤러는 Intel FPGA Acceleration Stack에서 제공하는 컨트롤러에 비해 최대 2.3배 높은 성능을 보였다.
피싱 URL 분류를 위한 컨볼루션-순환 트리플렛 신경망 기반 웹주소 특징공간의 학습
http://doi.org/10.5626/JOK.2021.48.2.147
폭발적으로 성장하는 소셜 미디어 서비스 등으로 인해 개인간의 연결이 강화된 환경에서는 URL을 통해 전파되는 피싱 URL의 자동화된 분류가 필수적이다. URL을 구성하는 문자와 단어수준의 특징을 모델링하기 위한 컨볼루션-순환신경망 기반의 피싱 URL 분류용 딥러닝 모형은 정확도의 측면에서 최고의 성능을 달성하였으나, 피싱 URL 데이터의 클래스 불균형으로 인한 샘플링 단계에서의 문제와 특징공간 구축시의 문제가 알려졌다. 본 논문에서는 URL 도메인에서의 클래스 불균형 이슈를 딥러닝 기반의 URL 특징공간 생성 태스크의 측면에서 지적하고 URL간의 유사도를 직접 학습할 수 있는 개선된 트리플렛 신경망 구조를 제안하였다. 제안하는 방법은 실제 웹으로부터 수집된 60,000건의 URL 데이터셋에 대해 검증되었고 최신의 딥러닝 기반 방법 대비 최고의 성능을 달성하였다. 개선된 트리플렛 신경망은 시간해상도 별 10겹 교차검증으로 평가되었고, 기존 딥러닝 알고리즘 대비 재현율 측면 45%의 향상을 보임으로써 피싱 URL 분류 분야에서의 표현형 학습 접근의 타당성을 검증하였다.
자연어 추론에서의 교차 검증 앙상블 기법
http://doi.org/10.5626/JOK.2021.48.2.154
앙상블 기법은 여러 모델을 종합하여 최종 판단을 산출하는 기계 학습 기법으로서 딥러닝 모델의 성능 향상을 보장한다. 하지만 대부분의 기법은 앙상블만을 위한 추가적인 모델 또는 별도의 연산을 요구한다. 이에 우리는 앙상블 기법을 교차 검증 방법과 결합하여 앙상블 연산을 위한 비용을 줄이며 일반화 성능을 높이는 교차 검증 앙상블 기법을 제안한다. 본 기법의 효과를 입증하기 위해 MRPC, RTE 데이터셋과 BiLSTM, CNN, ELMo, BERT 모델을 이용하여 기존 앙상블 기법보다 향상된 성능을 보인다. 추가로 교차 검증에서 비롯한 일반화 원리와 교차 검증 변수에 따른 성능 변화에 대하여 논의한다.
생성 기반 챗봇에서의 다양한 페르소나 반영 방법
http://doi.org/10.5626/JOK.2021.48.2.160
챗봇은 대화형 인터페이스를 통해 사용자와 상호작용하는 시스템을 말한다. 최근 생성 기반 챗봇 연구가 활발해지면서 개인 특성에 따라 다양한 답변을 하는 챗봇 연구 또한 많아지고 있다. 대표적으로 챗봇에 개인 특성을 반영한 페르소나 챗봇이 있다. 페르소나 챗봇은 개인 특성을 의미하는 페르소나를 반영한 챗봇을 말하며 다양한 서비스에 브랜드 인격을 반영하려는 움직임과 맞물려 크게 주목을 받고 있다. 따라서, 본 논문은 Dual WGAN 생성 기반 챗봇 모델에 페르소나를 세밀하게 반영하는 문장 페르소나 인코더와 테이블 페르소나 인코더를 이용하여 지정한 페르소나에 적합한 응답을 생성할 수 있는 챗봇 모델을 제안한다. 또한, 정량평가와 정성평가를 이용한 모듈별 비교실험과 실험 예제를 통해 제안 모델의 성능을 입증했다.
공유계층을 이용한 형태소 분석과 개체명 인식 통합 모델
http://doi.org/10.5626/JOK.2021.48.2.167
한국어 형태소 분석은 형태소 분석, 품사 태깅 과정으로 나뉜다. 형태소 분석 과정에서 형태소와 품사 후보 쌍을 추출하고, 품사 태깅 과정에서는 추출된 후보 중 문맥에 알맞은 형태소와 품사를 결정한다. 개체명 인식은 문장 내에서 인명, 지명, 기관명, 날짜, 시간 등과 같이 고유한 의미를 갖는 단어를 찾아 개체명을 부착하는 기술이다. 개체명 인식과 형태소 분석 연구는 주로 독립적으로 수행되며, 많은 개체명 인식 연구에서 품사 정보를 사용한다. 이 과정에서 형태소 분석의 오류가 개체명 인식에 치명적인 오류로 전파된다. 본 논문에서는 오류 전파를 최소화하기 위해 통합 모델을 제안한다. 형태소 분석기의 오류를 줄이기 위해 순차적 레이블 부착 문제에 효과적인 레이블 주의 집중 네트워크를 활용한다. 실험 결과, 개체명 인식과 형태소 분석의 단일 모델보다 통합 모델의 성능이 더 높음을 보였다. 또한 기존의 통합모델 보다 레이블 주의 집중 네트워크를 적용한 제안 모델이 더 높은 성능을 보였다.
효과적인 멀티태스크 프로그램 검증을 위한 KLEE와 CBMC의 오경보 식별 성능 비교
http://doi.org/10.5626/JOK.2021.48.2.174
OiL-CEGAR[1]는 정확한 검증을 위해 정형 운영체제 모델을 사용하고 프로그램을 정형모델로 변환해 검증함으로써 운영체제와 프로그램 모두를 고려하여 검증하였다. 하지만, 프로그램의 추상화로 인한 오경보가 보고될 수 있었으며 이를 제거하기 위한 실행 가능성 검사는 고비용이 요구되어 검증 성능개선을 위해서는 오경보 식별 성능의 개선이 꼭 필요하다. 본 연구에서는 실행 가능성 검사를 위한 두 가지 방법을 소개하고 비교하였다. 첫 번째 방법은 CBMC를 이용하며 전체 프로그램의 수식을 만들고 반례에 나타난 모든 블록의 도달 가능성을 한 번에 확인한다. 두 번째 방법은 KLEE를 이용하며 이진 탐색 기반 실행 가능성 검사를 통해 반례의 실행 불가능한 블록을 식별한다. 실험에서는 차량전장용 창문 제어프로그램의 검증에 각 실행 가능성 검사를 적용한 결과 KLEE를 이용했을 때 실행 가능성 검사 시간을 1/2000 수준으로 낮추었으며 전체 검증 시간을 11.78% 단축할 수 있었다.
문장 분석과 단어 삭제를 통한 한국어 문장 축약 코퍼스 구축
http://doi.org/10.5626/JOK.2021.48.2.183
딥 러닝 기반의 문장 축약 시스템을 개발하기 위해서는 원 문장-축약 문장의 쌍으로 구성된 병렬 코퍼스가 필요하다. 본 연구에서 우리는 문장 축약 알고리즘을 제안한다. 축약 알고리즘의 기본 접근방법은 압축 문장의 문법성을 유지하면서 입력 문장의 구문 의존 트리로부터 일부 노드를 지우는 것이다. 알고리즘은 문장의 구문 트리 제약 조건과 의미적 필수 정보를 이용하여 삭제할 노드를 선택한다. 신문기사의 첫 문장과 헤드라인에 알고리즘을 적용하여 약 140,000 쌍의 원 문장-축약 문장의 코퍼스를 구축할 수 있었다. 한국어 축약 코퍼스의 품질을 평가하기 위하여 가독성과 정보전달력에 대해 수동 평가를 수행한 결과 5점 만점 중 가독성 4.75, 정보전달력 4.53을 받았다.
학습 데이터 선별을 위한 오토인코더 기반 학습 개선도 측정 방안
http://doi.org/10.5626/JOK.2021.48.2.195
머신러닝 알고리즘은 최근의 우수한 성능에도 불구하고 개발과 사용을 어렵게 하는 단점이 있다. 이는 머신러닝 알고리즘의 최적 모델 개발과 배포까지의 반복적인 과정이 높은 시간 비용을 요구하기 때문이다. 이에 본 논문에서는 이러한 시간 부하를 줄이기 위한 방안으로, 전체 학습 데이터셋 중 일부 데이터를 선별하여 빠르게 학습하면서도 근사 솔루션을 제공할 수 있는 방법에 관하여 논한다. 먼저 학습데이터는 오토인코더에 기반하여 저차원 잠재공간의 특징 벡터로 맵핑된다. 그리고 맵핑된 각 샘플의 위치를 기반으로, 상대적으로 학습하기는 어렵지만 학습 개선도가 높은 샘플은 높은 가중치를 부여받는다. 최종적으로 가중치를 기반으로 한 중요도 샘플링을 수행하여 데이터를 선별하고 이를 학습에 활용한다. 실험결과, 제안하는 방법이 무작위 샘플링에 비해 더 높은 학습 성과를 달성하는 샘플을 선정할 수 있음을 보일 수 있었다.
커버리지 달성 성능 향상을 위한 반복 횟수를 제한하는 Concolic 테스팅 경로 탐색 기법
http://doi.org/10.5626/JOK.2021.48.2.201
본 논문은 Concolic 테스팅에서 실행 경로 내에 동일 분기문의 반복 횟수를 제한한 후 점진적으로 제한 횟수를 증가하는 새로운 탐색 전략을 제안하고, 이를 실제 테스트 생성에 적용하여 분기 커버리지 달성을 평가한 결과를 소개한다. 제안하는 탐색 전략인 반복 횟수 제한 탐색은 Concolic 탐색에 있어서 반복 횟수를 늘리는 방향으로의 실행 경로 탐색에 앞서, 반복 횟수가 제한된 상황 아래에서 이전에 탐색하지 않은 실행 경로를 먼저 탐색하게 우선 순위를 조정함으로써, 제한된 Concolic 테스팅 탐색 시간내에 다양한 실행 상황을 방문하도록 유도한다. 본 연구에서는 제안한 탐색 전략을 기존에 개발된 3종의 탐색 전략을 기반으로 적용하여 CREST 도구에 구현하였다. 4개의 오픈소스 C 프로그램을 대상으로 실험한 결과, 본 연구에서 제안하는 반복 횟수 제한 탐색 기법이 기존의 탐색 전략보다 높은 분기 커버리지를, 보다 짧은 시간 내에 달성함을 확인할 수 있었다.
물체 추적을 위한 딥 러닝 기반의 앙상블 모델 연구
http://doi.org/10.5626/JOK.2021.48.2.211
컴퓨터 비전 분야에서 물체 추적은 비디오 스트림으로부터 입력되는 시각적 정보로부터 타겟물체의 위상 변화를 예측하는 분야이며, 보안 및 군사기술이 요구하는 응용분야에서 중요하게 적용될 수 있는 기술이다. 최근의 딥 러닝 기반의 물체 추적 기술들은 검출기 기반 접근법(Tracking-by-Detection) 및 템플릿 대응 기반 접근법(template matching) 등을 통해 그 성능을 크게 향상시켰지만 접근방식에 따라 그 장단점이 분명하였다. 본 논문에서는 위의 두 접근방법을 응용하는 앙상블 모델 연구를 통해 단점을 보완하는 알고리즘을 제안한다. 제안되는 앙상블 알고리즘은 최근의 저명한 추적 알고리즘을 위한 벤치마크, OTB100, UAV123, LaSOT에서 모두 높은 성능향상을 보고한다.
이종 그래프상의 비유클리디안 데이터 분석을 위한 쌍곡 그래프 변형 인공 신경망
http://doi.org/10.5626/JOK.2021.48.2.217
합성곱 기반인 합성곱 인공 신경망(CNNs)은 이미지 분류, 이미지 생성, 시계열 분석 등에 다양하게 쓰이고 있다. 하지만 일반적인 유클리디안 공간과는 달리 그래프와 같은 비유클리디안 공간에서는 합성곱을 바로 적용할 수 없다. 이를 극복하기 위해 다양한 기법으로 합성곱을 그래프 상으로 확장하였으며, 다양한 그래프 인공 신경망(GNNs)이 제안되어 왔다. 하지만 기존의 그래프 인공 신경망 연구는 간선의 타입이 하나인 동종 그래프 분석에 국한되어 있는데 반해, 현실의 데이터는 간선의 타입이 많은 이종그래프 데이터인 경우가 많기 때문에 이를 기존의 그래프 인공 신경망으로 해결하려 하면 큰 왜곡이 생기게 된다. 본 연구는 계층적 구조를 가진 이종 그래프 데이터를 효과적으로 다루기 위하여 그래프 변형 네트워크(GTNs) 모델과 쌍곡 그래프 합성곱 네트워크(HGCNs) 모델을 통합하여 새로운 모델인 쌍곡 그래프 변형 네트워크(HGTNs)를 제안한다.
수퍼포인트-고해상도신경망; HRNet을 이용한 관심점 검출방법
http://doi.org/10.5626/JOK.2021.48.2.226
관심자(interest point) 검출방법은 컴퓨터 비젼에서 영상 매칭과 영상 인식에서 기본적으로 사용되는 방법으로 SIFT와 ORB 등이 많이 사용되어 왔다. 관심자는 실제값(ground truth)을 얻는 것이 어렵기 때문에 합성 코너점을 이용한 관심자 의사 실제값을 사용해서 딥 러닝 모델을 학습한 SuperPoint가 개발되어서 컴퓨터 비젼의 고전적인 방법들과 유사한 성능을 보여줬다. 본 논문에서는 관심자 검출에서 가장 중요한 요소인 반복성(repeatability)을 개선하기 위해서 SuperPoint 의 특징 추출에 사용되는 컨볼루션 신경망(Convolutional Neural Network)을 다른 해상도의 활성화 지도들이 상호 보완적인 High Resolution Network(HRN)로 사용하고 관심자 검출 부분을 수정한 SuperPoint-HRN을 개발했다. 제안된 방법을 HPatches 데이터에서 평가하여 SuperPoint 방법보다 관심점의 반복성과 위치 정확도에서 큰 개선을 얻었다.
딥러닝을 이용한 약물 화학 구조 예측
http://doi.org/10.5626/JOK.2021.48.2.234
신약 개발에 필요한 시간과 비용을 줄이기 위해서 많은 컴퓨터 기반 방법들이 연구되고 있다. 특히 최근 딥러닝 기법의 발전과 함께 후보 화합물의 화학식을 생성하기 위한 여러 가지 생성 모델(Generative model) 및 조건에 맞는 화학식을 생성하기 위한 강화학습 모델(Reinforcement learning model) 이 많이 연구되고 있다. 본 논문에서는 화합물과 단백질 간의 예측된 결합 친화력 정보를 이용한 강화학습 모델을 제시한다. 구체적으로, 본 논문에서 사용하고 있는 생성 모델은 Stack-RNN이며, 생성된 화학식이 특정한 화학적 특성을 가짐과 동시에 특정한 단백질과 높은 결합 친화력을 가지도록 Stack-RNN을 에이전트로 이용함으로써 강화학습을 구현한다. 본 논문에서는 소라페닙(Sorafenib), 수니티닙(Sunitinib), 다사티닙(Dasatinib)의 3가지 항암제들이 가지는 표적 단백질 정보를 이용하여 해당 항암제와 유사한 화합물의 화학식을 생성해 보았다.
차량 엣지 컴퓨팅 환경에서 강화학습 기반의 서비스 마이그레이션
http://doi.org/10.5626/JOK.2021.48.2.243
사용자에게 초저지연 및 실시간 서비스를 제공할 수 있어 엣지 컴퓨팅은 사물인터넷을 이끌 수 있는 유망 기술로 부상하고 있다. 하지만 사용자의 이동성과 엣지 서버의 제한적인 커버리지 때문에 서비스 중단과 QoS 저하를 초래한다. 그래서 끊김 없는 서비스를 보장하기 위해 서비스 마이그레이션이 중요한 이슈로 다뤄진다. 본 논문에서는 차량 엣지 컴퓨팅 환경에서 Q-learning 강화학습 기법을 사용하여 마이그레이션에 관해 결정하는 알고리즘을 제안한다. 제안한 알고리즘은 차량의 이동에 따라 마이그레이션 진행 여부와 대상을 결정하는 것이다. 제안한 알고리즘의 목적은 지연 제약조건을 충족하며 시스템 비용을 최소화하는 것이다. 본 논문에서는 제안 알고리즘의 성능 비교를 통하여 기존 기법에 비하여 마이그레이션 진행 여부와 대상 결정의 측면에서 더 나은 성능을 보임을 확인하였다.