검색 : [ keyword: MAC ] (115)

유전자 임베딩을 이용한 암 예후 예측 방법

김현지, 안재균

http://doi.org/10.5626/JOK.2021.48.7.842

암의 예후와 관련이 있는 유전자를 식별하고 이를 이용하여 암환자의 예후를 예측하는 것은 환자에게 효과적인 치료방법을 제공하는데 기여하는 바가 크다. 유전자 발현 데이터를 이용하여 예후 관련 유전자를 탐색하거나 암의 예후를 예측하기 위한 다양한 연구방법들이 제시되었으며, 최근에는 딥러닝을 비롯한 머신러닝 기법들이 집중적으로 연구되고 있다. 하지만 유전자 발현량 데이터에 기계학습 방법을 적용하는 것은 사용 가능한 샘플의 수가 적고 유전자의 수가 많다는 근본적인 문제가 있다. 본 연구에서는 유전자 네트워크 데이터를 추가적으로 사용하여, 많은 수의 무작위 유전자 경로를 학습 데이터 사용함으로써 적은 수의 샘플이라는 문제를 보완하고자 한다. 본 연구에서 제시하는 방법을 이용하여 5가지 암에 대한 유전자 발현 데이터와 유전자 네트워크를 이용하여 예후 특이적 유전자를 식별하고 환자의 예후를 예측한 결과, 다른 기존 방법들과 비교하여 높은 정확도로 예측을 하는 것을 확인할 수 있었으며, 적은 샘플을 사용한 예측에서 높은 성능을 확인할 수 있었다.

주제 어트리뷰트 모델을 이용한 주제 키워드 기반 한국어 문서 요약

윤수환, 김아영, 박성배

http://doi.org/10.5626/JOK.2021.48.6.688

문서 추상 요약은 요약 모델이 원문의 핵심 정보를 파악하여 새로운 요약문을 생성하는 작업이다. 이때 추상 요약 모델로 일반적인 Sequence-to-Sequence 모델을 많이 사용하였지만 여기에 핵심정보를 잘 표현하고 요약문에 반영하기 위해 주제(topic)을 넣어 요약문을 생성하는 주제 중심 요약(Topic centric summarization)을 하는 연구가 최근에 진행되고 있다. 그러나 기존의 방법은 주제 분포(Topic distribution)를 반영하여 문장을 생성하기 위해 모델을 처음부터 학습해야 하기 때문에 사전 학습 언어 모델의 장점을 살리기 어렵다. 본 논문에서는 사전 학습 언어 모델의 장점을 살리면서 주제 키워드를 요약문에 반영하여 주제 중심 요약을 할 수 있는 방법을 제시한다. 제안하는 주제 중심 요약 방법은 기존 조건부 언어 모델(Conditional Language Model)에서 연구되었던 PPLM (Plug and Play Language Model)의 어트리뷰트 모델을 문서 요약에서 사용되는 사전 학습 Sequence-to-Sequence 모델인 MASS에 적용하여 ‘주제 키워드 기반 요약문’을 생성하는 방법이다. 제안하는 방법은 별도의 추가 학습을 요구하지 않기 때문에 MASS의 언어 능력과 파인 튜닝으로 학습한 요약 능력을 그대로 사용함과 동시에 특정 키워드를 등장시켜 주제에서 벗어나지 않는 요약문을 생성할 수 있게 한다. 제안하는 방법의 우수성을 보이기 위해 BERT+Transformer 디코더를 사용한 모델, PPLM을 적용하지 않은 MASS 모델과 한국어 요약성능을 비교하였으며 평균적으로 ROUGE와 BERTScore 모두 성능이 향상되는 것을 확인할 수 있었다.

한국어 어휘 의미망을 활용한 CRF 모델 기반 개체명 인식

박서연, 옥철영

http://doi.org/10.5626/JOK.2021.48.5.556

개체명 인식은 주어진 문장 내의 고유한 의미가 있는 단어들을 미리 정의된 개체의 범주로 분류하는 작업이다. 최근 딥러닝 네트워크 혹은 언어 모델을 이용한 개체명 인식 연구들이 높은 성능을 보였지만 이러한 모델은 고성능의 컴퓨팅 파워가 요구되며 학습 모델의 속도가 느려 아직은 실용성이 낮다는 문제가 있다. 본 논문에서는 실용성을 목적으로 처리 속도와 정확률을 모두 고려하여 기계학습 방식의 CRF를 기반으로 하여 의미 자질과 구문적 자질을 추가한 개체명 인식 시스템을 제안한다. 한국어 어휘 의미망(UWordMap)을 활용하여 사람의 지식을 기반으로 하여 의미 자질인 상위어, 최상위어 정보와 구문적 자질인 의존관계와 격조사 정보를 학습 자질로 추가하고 평가하였다. 실험 결과, F1 score 기준 90.54% 포인트의 성능과 초당 약 1,461 문장을 처리하였다.

Improvement in Network Intrusion Detection based on LSTM and Feature Embedding

Hyeokmin Gwon, Chungjun Lee, Rakun Keum, Heeyoul Choi

http://doi.org/10.5626/JOK.2021.48.4.418

NIDS(Network Intrusion Detection System)는 네트워크 경계 보안에 필수적인 도구로써 네트워크 침입을 감지하기 위해 네트워크 트래픽 패킷을 검사한다. 현존하는 많은 연구들은 NIDS를 구축하기 위해 기계 학습 기법을 사용했는데, 이러한 연구들은 다양한 인공지능 알고리즘의 효과를 입증했지만, 네트워크 트래픽 데이터의 시계열 정보를 활용하는 경우는 드물었다. 신경망 기반 모델을 이용한 연구에는 네트워크 트래픽 데이터의 범주형 정보를 보다 더 효과적으로 활용할 수 있는 가능성이 남아있다. 본 논문에서는 LSTM(Long Short-Term Memory) 네트워크를 이용한 순차정보와 임베딩 기법을 이용한 범주형 정보에 근거한 네트워크 침입 탐지 모델을 제안한다. 검증을 위해 종합적인 네트워크 트래픽 데이터 집합인 UNSW-NB15를 이용하여 비교 실험을 수행하였고, 실험 결과는 제안된 방법이 99.72%의 이항 분류 정확도로 기존의 방식들 보다 높은 성능을 보이는 것을 확인하였다.

모델 전문화를 위한 조건부 지식 증류 기법

김학빈, 최동완

http://doi.org/10.5626/JOK.2021.48.4.369

최근 지식 증류기반의 신경망 압축 기법에 관한 연구가 활발히 진행되고 있다. 하지만, 사용자가 교사모델의 전체 클래스 중 일부만을 분류하기 원하는 경우 기존의 지식 증류기법은 불필요한 정보까지 전달하게 되어 비효율성이 발생한다. 또한, 기존의 지식 증류기법은 교사모델의 학습에 사용된 데이터를 필요로 하지만, 개인 정보 문제 등으로 큰 제약이 될 수 있다. 이에 본 논문에서는 교사모델의 전체 클래스 중 특정 클래스들의 분류만을 위한 전문화된 학생모델을 학습하는 조건부 지식 증류기법과 데이터가 없는 상황으로 확장된 조건부 지식 증류기법을 함께 제안한다. 아울러 사용자가 소량의 데이터만 수집한 경우, 위의 두 증류기법이 결합된 방식도 함께 제안한다. 제안하는 기법을 통해 학습된 전문화된 학생모델은 기존의 지식 증류를 통해 학습된 학생모델보다 높은 정확도를 달성하였으며 데이터가 없는 상황에서도 데이터를 사용한 지식 증류기법에 비해 대부분의 실험에서 높은 정확도를 달성하였다.

기계독해 말뭉치의 교차 평가, 블라인드 평가 및 오픈도메인 질의응답 환경 평가를 통한 한국어 기계독해의 일반화 성능 평가

임준호, 김현기

http://doi.org/10.5626/JOK.2021.48.3.275

기계독해는 자연어 질문과 단락이 주어졌을 때 단락 내 정답을 찾는 태스크로, 최근 사전학습 언어모델을 이용한 방법이 우수한 성능을 보이고 있다. 본 논문에서는 현재 기계독해 기술이 학습말뭉치와 유사한 평가말뭉치가 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 말뭉치 간 교차 평가 및 블라인드 평가를 수행하였고, 교차 평가결과 정답 길이, 질문 단락 사이 오버랩 비율과 같은 통계와 일반화 성능 사이 관련이 있음을 확인하였다. 블라인드 평가결과, 정답 길이가 길고 질문-단락 사이 어휘 오버랩이 낮은 평가말뭉치에서는 80% 이하의 성능을 보였다. 마지막으로, 기계독해 모델을 오픈도메인 질의응답 환경에 적용할 경우의 일반화 성능을 평가하여, 검색 단락을 이용한 기계독해 시 성능이 하락함을 확인하였다. 기계독해는 태스크 특성 상 질문과 정답 사이 관계에 따라 난이도 및 일반화 성능 차이가 발생하여, 다양한 유형의 평가말뭉치에서의 평가가 필요함을 확인하였다.

딥러닝을 이용한 약물 화학 구조 예측

고수현, 박치현, 안재균

http://doi.org/10.5626/JOK.2021.48.2.234

신약 개발에 필요한 시간과 비용을 줄이기 위해서 많은 컴퓨터 기반 방법들이 연구되고 있다. 특히 최근 딥러닝 기법의 발전과 함께 후보 화합물의 화학식을 생성하기 위한 여러 가지 생성 모델(Generative model) 및 조건에 맞는 화학식을 생성하기 위한 강화학습 모델(Reinforcement learning model) 이 많이 연구되고 있다. 본 논문에서는 화합물과 단백질 간의 예측된 결합 친화력 정보를 이용한 강화학습 모델을 제시한다. 구체적으로, 본 논문에서 사용하고 있는 생성 모델은 Stack-RNN이며, 생성된 화학식이 특정한 화학적 특성을 가짐과 동시에 특정한 단백질과 높은 결합 친화력을 가지도록 Stack-RNN을 에이전트로 이용함으로써 강화학습을 구현한다. 본 논문에서는 소라페닙(Sorafenib), 수니티닙(Sunitinib), 다사티닙(Dasatinib)의 3가지 항암제들이 가지는 표적 단백질 정보를 이용하여 해당 항암제와 유사한 화합물의 화학식을 생성해 보았다.

학습 데이터 선별을 위한 오토인코더 기반 학습 개선도 측정 방안

정유나, 황명권, 성원경

http://doi.org/10.5626/JOK.2021.48.2.195

머신러닝 알고리즘은 최근의 우수한 성능에도 불구하고 개발과 사용을 어렵게 하는 단점이 있다. 이는 머신러닝 알고리즘의 최적 모델 개발과 배포까지의 반복적인 과정이 높은 시간 비용을 요구하기 때문이다. 이에 본 논문에서는 이러한 시간 부하를 줄이기 위한 방안으로, 전체 학습 데이터셋 중 일부 데이터를 선별하여 빠르게 학습하면서도 근사 솔루션을 제공할 수 있는 방법에 관하여 논한다. 먼저 학습데이터는 오토인코더에 기반하여 저차원 잠재공간의 특징 벡터로 맵핑된다. 그리고 맵핑된 각 샘플의 위치를 기반으로, 상대적으로 학습하기는 어렵지만 학습 개선도가 높은 샘플은 높은 가중치를 부여받는다. 최종적으로 가중치를 기반으로 한 중요도 샘플링을 수행하여 데이터를 선별하고 이를 학습에 활용한다. 실험결과, 제안하는 방법이 무작위 샘플링에 비해 더 높은 학습 성과를 달성하는 샘플을 선정할 수 있음을 보일 수 있었다.

LSTRf 기반의 학습 데이터 선정 방안

황명권, 정유나, 성원경

http://doi.org/10.5626/JOK.2020.47.12.1192

본 연구는 자동적이고 지능적인 AI 개발에 요구되는 human-in-the-loop (HITL) 과정의 단축을 위한 것으로, 학습에 긍정적 영향을 미치는 데이터 선정 방법을 다룬다. 이를 위해 학습 데이터의 유사성을 중심으로 2차원 분포를 형성하고, 일정한 비율로 격자를 형성한다. 각 격자 내에서 동일한 클래스 데이터의 분포 일관성을 기준으로 데이터를 선정하기 위하여 LSTRf 기법을 응용하여 적용한다. 이를 통해 선정된 데이터는 CNN 기반의 분류기를 통해 학습하고 그 성능을 평가한다. CIFAR-10을 활용하여 실험하였으며, 격자의 크기, 1회 연산에서의 선택되는 데이터 수를 다양화하여 학습에 미치는 효과를 평가하였다. 선정된 학습 데이터는 임의로 선정한 동일한 크기의 데이터와 비교하였다. 그 결과 격자의 크기가 작을수록(0.008과 0.005 크기) 학습에 긍정적으로 영향을 미치는 것을 확인하였고, 1회 연산에서 선정된 개수가 많을수록 전체적으로 우수해짐을 확인할 수 있었다.

BERT를 이용한 한국어 의미역 결정

배장성, 이창기, 임수종, 김현기

http://doi.org/10.5626/JOK.2020.47.11.1021

의미역 결정은 문장 내에서 “누가, 무엇을, 어떻게, 왜” 등의 관계를 찾아내는 자연어처리의 한 응용이다. 최근 의미역 결정 연구는 주로 기계학습을 이용하고 자질 정보를 배제한 종단 대 종단(end-to-end) 방식의 연구가 이루어지고 있다. 최근 BERT(Bidirectional Encoder Representations from Transformers)라는 언어 모델이 자연어처리 분야에 등장하여 기존 자연어처리 분야의 최고 성능 모델들 보다 더 좋은 성능을 보이고 있다. 종단 대 종단 방식을 이용한 의미역 결정 연구의 성능은 주로 기계학습 모델의 구조나 사전에 학습된 언어 모델의 영향을 받는다. 따라서 본 논문에서는 한국어 의미역 결정성능 향상을 위해 BERT를 한국어 의미역 결정에 적용한다. 실험 결과 BERT를 이용한 한국어 의미역 결정 모델의 성능이 85.77%로 기존 한국어 의미역 결정 모델들 보다 좋은 성능을 보였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr