디지털 라이브러리[ 검색결과 ]
잠재디리슐레할당 기반 군집화를 통한 유사 범죄코드 발굴과 범죄예측
http://doi.org/10.5626/JOK.2020.47.1.45
범죄데이터를 활용한 범죄예측에 대한 연구가 선진국의 대도시를 대상으로 활발히 진행되고 있다. 이러한 범죄예측 연구는 실제로 예측 치안(Predictive Policing)에서 활용되어 범죄 사건을 예측하여 해당 예측을 기반으로 치안계획을 수립방법론들이 실제 성공적으로 적용되고 있다. 범죄데이터를 용이하게 관리하기 위하여 범죄의 종류를 구분해야 될 필요가 있고, 해외 기관들은 범죄종류별 코드를 부여하여 효율적으로 데이터를 관리하고 있다. 본 연구에서는 범죄데이터를 분류하는 범죄코드간 유사성을 기계학습 알고리즘으로 측정하여 발생되지 않은 범죄의 코드를 예측하는 모델을 제안한다. 기존의 범죄율이나 사건의 장소, 시간을 예측하는 예측방법론 외에도 범죄코드 예측은 범죄의 종류를 예측하는 측면에서 중요성이 부각된다. 범죄의 종류의 예측이 가능하여야 경찰행정을 효율적으로 계획 배치할 수 있기 때문이다. 본 연구에서 제안하는 알고리즘을 기반으로 실증 데이터를 이용하여 모델의 우수성을 검증하였다.
최대 수요 전력 저감을 위한 LSTM 기반 ESS 운영 스케줄링 기법
http://doi.org/10.5626/JOK.2019.46.11.1165
최근 우리나라의 최대 수요 전력 부하가 급격히 증가함에 따라 정전 확률이 올라가고 있다. 이에 대응하기 위해 energy storage system (ESS)에 저장한 전력을 활용하여 최대 수요 전력을 저감하는 ESS 운영 스케줄링 기법이 연구되고 있다. 수요 전력 정보를 미리 알고 있다면, ESS에 저장된 전력과 앞으로 발생할 수요 전력을 모두 고려하여 최적의 ESS 운영 스케줄링 기법을 적용할 수 있을 것이다. 그러나, 최대 수요 전력은 상대적으로 짧은 시간 구간에서만 발생하며 발생 시간도 일정하지 않아 예측이 매우 어렵다. 따라서, 미래의 수요 전력 정보를 미리 알고 있어야만 구현 가능한 최적의 ESS 운영 스케줄링기법은 실질적으로 적용이 어렵다. 본 논문에서는 과거에 측정된 수요 전력 정보만을 이용하는 ESS 운영스케줄링 기법을 제안하였다. 구체적으로, 과거에 측정된 수요 전력과 이에 대응되는 ESS의 최적 방전 전력을 입 · 출력 데이터로 활용하여 long short-term memory (LSTM) 신경망을 훈련하고 이를 ESS 운영스케줄링에 적용하였다. 제안 기법의 유효성을 검증하기 위해, 4곳의 전력 수용가들에 대한 수요 전력 데이터를 이용하여 실험을 수행하였다. 구체적으로, 제안 기법은 정확한 전력 수요 정보를 미리 알고 있어야만 구현 가능한 최적 운영스케줄링 기법 대비 최대 약 82.42%까지 연간 최대 수요 전력 감소를 달성할 수 있음을 확인하였다.
딥러닝을 이용한 화합물-단백질 상호작용 예측
http://doi.org/10.5626/JOK.2019.46.10.1054
화합물과 단백질 간의 상호작용을 특성화하는 것은 약물 개발 및 탐색을 위해 중요한 과정이다. 상호작용을 파악하기 위해 단백질과 화합물의 구조 데이터를 이용하지만 그 구조가 알려져 있지 않은 경우도 많으며, 많은 계산 양으로 인해 예측의 속도와 정확도도 떨어질 수 있다는 한계가 있다. 본 논문에서는 기계번역에서 사용되는 sequence-to-sequence 알고리즘과 입력벡터를 효과적으로 축소시키기 위한 오토 인코더를 결합한 모델인 S2SAE (Sequence-To-Sequence Auto-Encoder)를 이용하여 화합물-단백질 상호작용을 예측하였다. 본 논문에서 제안한 방법은 기존의 복합체를 나타내는 표현들보다 적은 수의 특징들을 이용하여 상호작용을 예측할 수 있으며, 기존의 방법보다 높은 예측 정확도를 보여주었다.
모바일 입력의 자기 유사도를 이용한 매크로 탐지 방안
http://doi.org/10.5626/JOK.2019.46.9.951
사람의 개입 없이 지정된 행위를 반복하는 매크로는 게임의 공정성을 해치는 주요 원인이다. 조직적 매크로 사용은 게임 내의 경제를 파괴하고 사용자들의 게임 동기를 악화시키므로 게임 서비스의 성공을 위하여 방지되어야 한다. 특히, 모바일 게임은 PC 게임보다 상대적으로 제한된 하드웨어 자원, 비효율적인 입력 방식을 고려하여 더 단순하게 동작하므로 매크로를 만들고 사용하기 쉽다. 동시에, 잘 알려진 매크로 탐지 방법들은 일반적으로 자원을 많이 사용하므로 자원이 적은 모바일에서는 적용하기 어려운 문제가 있다. 본 논문에서는 모바일 입력의 자기 유사도를 통해 매크로를 탐지하는 방법을 제안한다. 이 방법은 자기 유사도 측정을 위한 단위를 적은 자원에도 효율적으로 설정하여 모바일 게임에도 쉽게 적용할 수 있다. 우리는 제안한 방법을 두 개의 모바일 게임에 적용하여 높은 확률로 매크로와 사람을 구별할 수 있음을 보였다.
인터넷 용어의 감성 분석을 통한 동영상 광고 효과 분석 시스템 설계
http://doi.org/10.5626/JOK.2019.46.9.919
스마트폰 사용의 증가로 인해 SNS를 통한 동영상 광고의 영향력은 커지고 있으며, 이를 분석하는 것 또한 중요해지고 있다. 하지만 전통적인 설문 조사 방식의 분석 방법으로는 빠르게 유통되는 SNS 광고 효과를 측정하기에 적합하지 않으며, 기존의 시스템은 인터넷 댓글 특성인 비속어, 줄임말, 이모티콘 등을 고려하지 않으므로 이들을 고려한 분석 방법이 필요하다. 따라서 본 연구에서는 한국어 단문의 특성을 반영하여 동영상 광고의 효과를 분석할 수 있는 자동화된 시스템을 제안한다.
본 시스템은 인터넷 용어의 해석을 위해 기계학습을 사용하여 비속어 감성 사전을 구축한다. 또한, 사용자가 감성을 강조하기 위해 사용하는 이모티콘을 한국어 구문 규칙에 적용하여 감성 분석에 사용하고, 감성의 대상이 되는 명사에 대해 감성 값을 계산하여 세밀한 감성 분석이 이루어지도록 시스템을 설계 및 구현하였다. 이를 통해 동영상 콘텐츠 이용자의 만족도를 도출해 낼 수 있다.
개인신용정보 표본DB 기반의 대출 현황 분석 및 채무불이행 예측성능 비교
http://doi.org/10.5626/JOK.2019.46.7.627
본 논문은 한국신용정보원의 신용정보 표본DB 시범서비스의 일환인 개인신용정보 표본DB를 이용하여 차주들의 성별, 연령, 기준월, 업권 등에 따른 대출 및 채무불이행 현황을 분석하고 통계자료를 제시한다. 또한, 국내외 은행은 대출 차입자의 채무불이행에 따른 손실을 최소화하는데 주목하고 있음에 따라 개인신용정보 표본DB를 사용하여 차주의 채무불이행을 예측 모델을 생성하고 성능을 평가한다. 특정 달의 채무불이행을 예측하기 위하여 직전 6개월의 차주의 정보 및 대출 정보를 가공하여 특징 데이터를 생성하고 Recurrent Neural Network와 기계학습 알고리즘을 사용하여 채무불이행 예측 모델을 생성하였다. 각 모델의 성능 측정 결과, Recurrent Neural Network가 채무불이행 차주에 대한 Recall이 0.96, AUC가 0.85로 가장 좋은 성능을 보였다.
이미지 정보를 이용한 영어-한국어 자동 번역
http://doi.org/10.5626/JOK.2019.46.7.690
기계 번역 연구는 하나의 언어로 된 텍스트를 다른 언어로 자동 변환하는 기술이다. 기존의 기계 번역 연구는 번역을 위해 오직 텍스트 데이터만 사용하였다. 따라서 기존 기계 번역 연구는 입력 텍스트와 관련된 다양한 정보들을 활용할 수 없다는 단점이 있다. 최근에는 텍스트 데이터만 사용하는 기존 기계 번역과 달리 입력 텍스트와 관련된 이미지 정보를 기계 번역 시스템의 추가 입력으로 사용하는 멀티모달 기계 번역 모델이 등장했다. 본 연구에서는 최근 연구 동향에 맞추어 기계 번역의 디코딩 타임에 이미지 정보를 추가하고 이를 영어-한국어 자동 번역에 적용한다. 또한 디코딩 타임에 텍스트 정보와 이미지 정보를 적절히 조절하기 위한 별도의 게이트를 적용한 모델을 제안하고, 실험을 통해 게이트를 적용하지 않은 모델보다 더 좋은 성능을 나타냄을 보인다.
객체 Attention을 이용한 이미지 캡션 생성
http://doi.org/10.5626/JOK.2019.46.4.369
이미지 데이터가 폭발적으로 증가함에 따라 이미지를 자연어로 표현하기 위한 이미지 캡션 생성 기술에 대한 연구도 활발하게 이루어지고 있다. 기존 한국어 이미지 캡션 생성 기술에서는 영어권 데이터를 번역하여 사용함으로 인해 동시 발생 객체들에 의한 오류가 있다. 본 논문에서는 입력 이미지에 대한 캡션을 생성하여 추출한 명사와 이미지의 정답 캡션에서 추출한 명사를 이용하는 attention 함수를 새로운 손실 함수로 사용하는 이미지 캡션 모델을 제안한다. 공개된 실험 데이터를 사용한 실험에서 BLEU1 0.686, BLEU2 0.557, BLEU3 0.456, BLEU4 0.372를 보였다. 이를 이용하여 제안된 모델이 고빈도 동시 발생 객체 오류 해결에 효과적임을 입증하고 기존 연구보다 높은 성능을 얻음을 보이며 중복된 출력 문장을 줄임으로써 이미지 캡션의 다양한 표현들이 생성에 효과적임을 보였다. 또한 본 논문에서 제안하는 방법을 이용하여 이미지 캡션 모델을 학습하기 위한 코퍼스를 생성할 수 있다.
데이터 기반 경로 선별을 통한 상용 정적분석기의 성능 향상 방법
http://doi.org/10.5626/JOK.2019.46.4.363
데이터에 기반한 경로 선별을 통해 상용 정적분석기의 성능을 높이는 방법을 제안한다. 경로에 민감한(path-sensitive) 분석은 상용 정적분석기가 일반적으로 채택하는 기법이며, 어떤 경로를 골라 분석하느냐에 따라 분석비용과 검출하는 오류 수가 달라진다. 이 논문은 손수 튜닝된 경로 선별 휴리스틱을 장착한 기존 상용 정적분석기로부터 비용 대비 효과가 좋은 새로운 경로 선별 휴리스틱을 자동으로 학습하는 방법을 제안한다. 분석기 코드에서 추출한 특징(feature)과 벤치마크 프로그램의 분석결과에 기대어 학습한다. 이 방법을 스패로우(Sparrow)의 상용 C 소스코드 정적분석기와 17개의 C 오픈소스 벤치마크에 적용한 결과, 대표적인 17종 대상오류에 대해 기존 분석 대비 90.8%의 오류를 38%의 분석시간에 검출할 수 있었다. 이는 기존 분석기의 경로 선별 휴리스틱을 따르되 탐색하는 경로의 개수만 유사한 조건으로 제한했을 때보다 더 많은 오류를 더 짧은 시간에 검출한 것이다.
포지션 인코딩 기반 S³-Net를 이용한 한국어 기계 독해
http://doi.org/10.5626/JOK.2019.46.3.234
S³-Net은 Simple Recurrent Unit (SRU)과 자기 자신의 RNN sequence에 대하여 어텐션 가중치(attention weight)를 계산하는 Self-Matching Networks를 기반으로 기계 독해 질의 응답을 해결하는 딥 러닝 모델이다. 기계 독해 질의 응답에서 질문에 대한 답은 문맥 내에서 발생하는데, 하나의 문맥은 여러 문장으로 이뤄지기 때문에 입력 시퀀스의 길이가 길어져 성능이 저하되는 문제가 있다. 본 논문에서는 이와 같이 문맥이 길어져 성능이 저하되는 문제를 해결하기 위하여 문장 단위의 인코딩을 추가한 계층모델과, 단어 순서 정보를 확인하는 포지션 인코딩을 적용한 S³-Net을 제안한다. 실험 결과, 본 논문에서 제안한 S³-Net 모델이 한국어 기계 독해 데이터 셋에서 기존의 S²-Net보다 우수한(single test) EM 69.43%, F1 81.53%, (ensemble test) EM 71.28%, F1 82.67%의 성능을 보였다.