검색 : [ author: 이현 ] (34)

적대적 예제 생성을 통한 반사실적 예제 생성

이현규, 정다흰

http://doi.org/10.5626/JOK.2022.49.12.1132

인공지능 기술은 많은 편의를 가져다주었지만, 인공지능 모델의 복잡한 구조는 그 작동 원리를 이해하기 어렵게 만들었다. 반사실적 설명은 인공지능을 설명하는 방법으로, 인간이 인지할 수 있는 최소한의 변화가 반영되어 분류 결과를 바꾸는 반사실적 예제를 통해 설명한다. 적대적 예제는 인공지능 모델의 분류 결과를 바꿀 목적으로 변형된 데이터이며, 반사실적 예제와 다르게 반영된 변화를 인간이 인지하기 어렵다. 단순한 모델에서는 적대적 예제가 반사실적 예제처럼 생성될 수 있지만, 딥러닝 모델에서는 인간과 인공지능의 인지 차이가 크기 때문에 어렵다. 하지만, 우리는 일부 딥러닝 모델에서 생성된 적대적 예제가 반사실적 예제처럼 생성되는 것을 확인하였다. 본 논문에서, 우리는 적대적 예제가 반사실적 예제처럼 생성되는 딥러닝 모델의 모델 구조와 조건들을 분석한다. 우리는 부분 집중 변화도 메트릭을 제안하고 기존의 메트릭과 함께 활용해 서로 다른 모델에서 생성되는 적대적 예제를 비교해본다.

RocksDB 최적화를 위한 파라미터 조정 자동화 기법

김지원, 이현명, 정성민, 조희승

http://doi.org/10.5626/JOK.2021.48.11.1167

애플리케이션 이해도가 낮은 유저들에게 복잡해진 애플리케이션 최적화는 매우 어려운 일이다. 애플리케이션 파라미터를 이용해 최적화하는 선례 연구들은 한 개 혹은 두 개의 파라미터를 통해 성능을 최적화하였다. 그러나 단일 파라미터를 통한 최적화는 파라미터들의 관계성을 고려하여 최적하기 힘든 방법이다. 본 논문에서는 여러 파라미터를 동시에 최적화하는 두 개의 기법 LDH-Force, PF-LDH를 제안한다. LDH-Force기법은 LDH과정을 추가해 효율적으로 탐색 횟수를 줄이면서, 여러 파라미터에 대하여 동시에 최적의 파라미터 조합을 찾아낸다. PF-LDH기법은 파라미터가 성능에 영향을 주는 정도가 다름을 확인해 필터링 과정을 추가해 탐색 비용을 더 줄일 수 있다. 제안하는 기법은 실험을 통하여 최대 42.55배의 성능향상을 확인할 수 있었으며, 다양한 워크로드에서도 사용자의 간섭없이 최저의 탐색비용으로 최적의 파라미터 조합을 찾아낼 수 있음을 보였다.

EFA-DTI: Edge Feature Attention을 활용한 약물-표적 상호작용 예측

에르햄바야르 자담바, 김수헌, 이현수, 김화종

http://doi.org/10.5626/JOK.2021.48.7.825

신약개발은 의약 화학, 시스템 및 구조 생물학, 더 나아가 인공지능에 이르기까지 다양한 학문을 필요로 하기 때문에 난이도가 높은 분야라고 할 수 있다. 특히, 약물-표적 상호작용(DTI) 예측은 방대한 양의 화합물로부터 질병을 치료할 수 있는 후보 물질을 도출해내는 과정으로, 신약 개발 과정에 있어 핵심 요소다. 최근에는 컴퓨터 성능이 비약적으로 발전함에 따라, DTI 예측에 소요되는 여러 측면의 비용을 줄이고자 인공지능 신경망을 활용하는 연구가 활발히 진행되고 있다. 따라서, 본 논문에서는 Edge Feature Attention을 적용한 Graph Net Embedding 및 Fingerprint를 활용한 약물 표현 생성과 ProtTrans를 활용한 단백질 표현 생성을 통해 약물과 표적 단백질 간의 상호작용 수치를 예측하는 모델을 제안한다. 해당 모델은 기존의 DTI 연구에서 가장 좋은 성능을 보였던 DeepDTA, GraphDTA보다 높은 성능을 달성하였으며, 이에 대한 실험 및 결과를 기술하였다.

명령어 특성 요약을 사용한 신경망 기반 ROP 공격 탐지의 성능 개선

이현규, 표창우

http://doi.org/10.5626/JOK.2021.48.5.493

귀환 지향 프로그래밍(Return-Oriented Programming (ROP))은 메모리에 적재되어 있는 코드 조각들을 귀환 명령을 사용하여 원하는 순서대로 실행하는 프로그램 공격 기법이다. 이 논문은 신경망을 사용하여 ROP 공격을 효율적으로 탐지하는 방법을 제안하고 있다. 이 방법은 명령어 특징을 나타내는 요약을 사용하여 데이터의 크기를 축소시키고, 귀환 명령 이후에 실행되는 12개의 명령에 대해서만 신경망을 가동한다. 웹 서버와 브라우저, 그리고 이들 실행에 필요한 라이브러리를 사용한 실험에서 F1 점수 100을 유지하는 가운데 DeepCheck과 HeNet보다 각각 9.6배, 그리고 1,403.1배의 속도 향상을 보였다.

학습 데이터를 이용한 CNN의 일반화 오류 평가 방법

이현호, 채흥석

http://doi.org/10.5626/JOK.2021.48.3.284

우수한 성능의 CNN일지라도 실제 환경을 예상한 테스트 데이터셋 상의 오류인 일반화 오류는 높게 나오는 경우가 있다. 이 일반화 오류를 줄여서 모델이 실제 환경에서도 학습된 성능이 유지될 수 있도록 해야 한다. 본 논문에서는 데이터 다양성이 높은 학습 데이터셋을 통해 학습한 모델이 클래스별로 자주 활성화하는 뉴런 셋을 반응 셋이라 정의한다. 또한 테스트 데이터셋의 데이터 다양성에 따른 일반화 오류의 차이도 고려한다. 본 논문은 이 차이를 상대적 일반화 오류라 정의한다. 본 논문에서는 CNN의 클래스별 반응 셋과 상대적 일반화 오류의 관계를 이용하여서 학습 데이터셋 만을 이용한 CNN의 일반화 오류의 평가 방법을 제안한다. 사례연구를 통해 반응 셋 비율이 상대적 일반화 오류와 관계가 있음을 확인하였으며 본 논문에서 제안한 학습 데이터를 이용한 CNN의 일반화 오류의 평가 방법이 효과적임을 확인하였다.

서버 응용프로그램 성능 향상을 위한 운영체제 스케줄러 변수 조정

한태현, 이현명, 조희승

http://doi.org/10.5626/JOK.2020.47.7.643

현대의 Linux 서버는 대규모 서버부터 소규모 IOT 분야까지 다양한 방면에서 활용되고 있고, 대부분의 머신들은 자신의 서비스를 Linux에서 제공하는 기본 설정의 스케줄러를 통해 동작시키고 있다. 특정 목적에 맞도록 최적화는 가능하지만, 일반적인 사용자가 다양해진 현대의 Linux application을 모두 최적화할 수 없는 문제가 존재한다. 이에 본 논문에서는 Linux 서버의 성능을 최대화할 수 있도록 스케줄러 설정을 자동으로 최적화해줄 수 있는 SCHEDTUNE을 제안하고자 한다. SCHEDTUNE 은 서버에서 수행하는 Application이나 기본 Kernel 소스에 별도의 수정 없이 성능을 향상할 수 있도록 해준다. 이를 통해 관리자는 자신들이 운영하는 서버에 특화되어 동작하는 스케줄러를 쉽게 구성할 수 있게 된다. 실험결과 SCHEDTUNE을 적용한 경우 최대 19% 높은 성능을 얻게 되었으며, 대부분의 경우 이에 준하는 성능 향상을 달성하였다.

KorQuAD 2.0: 웹문서 기계독해를 위한 한국어 질의응답 데이터셋

김영민, 임승영, 이현정, 박소윤, 김명지

http://doi.org/10.5626/JOK.2020.47.6.577

KorQuAD 2.0은 총 100,000+ 쌍으로 구성된 한국어 질의응답 데이터셋이다. 기존 질의응답 표준 데이터인 KorQuAD 1.0과의 차이점은 크게 세가지가 있는데 첫 번째는 주어지는 지문이 한두 문단이 아닌 위키백과 한 페이지 전체라는 점이다. 두 번째로 지문에 표와 리스트도 포함되어 있기 때문에 HTML tag로 구조화된 문서에 대한 이해가 필요하다. 마지막으로 답변이 단어 혹은 구의 단위뿐 아니라 문단, 표, 리스트 전체를 포괄하는 긴 영역이 될 수 있다. Baseline 모델로 공개된 구글 BERT를 활용하여 F1 스코어 46.0%의 성능을 확인하였다. 이는 사람의 F1 점수 85.7%에 비해 매우 낮은 점수로, 본 데이터가 도전적인 과제임을 알 수 있다. 추가적으로 답을 찾을 수 없는 경우에 대한 학습 데이터 증강 방식을 통해 성능을 높였다. 본 데이터의 공개를 통해 평문에 국한되어 있던 질의응답의 대상을 다양한 길이와 형식을 가진 과제로 확장하고자 한다.

자가주의집중 기반의 심층 신경망을 이용한 Branchpoint 예측

이현석, 김성찬

http://doi.org/10.5626/JOK.2020.47.4.343

접합(splicing)은 단백질 생성에 중요한 messenger RNA를 만들기 위한 RNA 처리 과정이다. Branchpoint는 접합 과정에서 중요한 역할을 하는 RNA 염기 서열 중 한 요소이며, 본 논문에서는 branchpoint 예측을 위한 심층 신경망 모델을 제안한다. Branchpoint 위치 예측에는 몇 가지 어려움이 존재한다. Branchpoint의 위치는 염기 서열에 존재하는 모티프(염기 서열에 나타나는 짧은 길이의 패턴)들과 밀접하게 관련된 것으로 알려져 있으며, RNA 서열의 특정 영역에 편중되어 있어 기계학습을 적용할 때 클래스불균형 문제가 발생한다. 본 논문의 기법은 입력 서열의 특징 학습을 위한 주의집중 기법과 클래스 불균형을 완화하기 위한 삼중항 손실을 활용한다. 이로 인해 알려진 최고 성능 수준의 예측 정확도를 유지하면서, branchpoint 위치에 영향을 주는 모티프들을 찾아내 예측에 대한 설명을 가능하게 해준다.

다중 작업 학습을 통한 문장 유사도 기반 단락 재순위화 방법

장영진, 이현구, 왕지현, 이충희, 김학수

http://doi.org/10.5626/JOK.2020.47.4.416

기계독해 시스템은 컴퓨터가 주어진 단락을 이해하고 질문에 대한 답변을 하는 질의응답 시스템이다. 최근 심층 신경망의 발전으로 기계독해 시스템의 연구가 활발해지면서 주어진 문서가 아닌 검색모델의 결과에서 정답을 찾는 연구(오픈 도메인 기계독해 시스템)가 진행되고 있다. 하지만 오픈 기계독해 시스템은 검색 모델이 정답을 포함하는 단락을 검색해오지 못할 경우, 질문에 대한 답을 할 수 없다. 즉, 오픈 도메인 기계독해 시스템의 성능은 검색 모델의 성능에 종속된다. 따라서 오픈 도메인 기계독해 시스템이 높은 성능을 기록하기 위해서는 높은 성능의 검색 모델이 요구된다. 검색 모델의 성능을 높이기 위한 기존 연구는 질의 확장과 재순위화 등을 통해 연구되었으며, 본 논문에서는 심층 신경망을 이용한 재순위화 방법을 제안한다. 제안 모델은 다중 작업 학습 기반 문장 유사도 측정을 통해 검색 결과(단락)를 재순위화하고, 자체 구축한 58,980 쌍의 기계독해 데이터의 실험 결과로 기존 검색 모델 성능과 비교하여 약 8%p(Precision 1 기준)의 성능 향상을 보였다.

스파크 환경에서 내용 기반 이미지 검색을 위한 효율적인 분산 인-메모리 고차원 색인 기법

최도진, 박송희, 김연동, 위지원, 이현병, 임종태, 복경수, 유재수

http://doi.org/10.5626/JOK.2020.47.1.95

영상에서 범죄 행위 모니터링 및 추적을 위해서 이미지 내에 포함된 객체를 검색하는 내용 기반 검색이 활용되고 있다. 본 논문에서는 내용 기반 이미지 검색을 위해 이미지 또는 객체에서 추출한 대용량 특징 벡터를 이용한 유사도 검색을 지원하는 분산 인-메모리 기반 고차원 색인 기법을 제안한다. 대용량 분산 처리를 위해 빅데이터 플랫폼인 스파크를 활용하고 효율적인 분산 질의 처리 할당을 위해 마스터/슬레이브 모델을 활용한다. 마스터에서는 데이터 및 질의 분배를 수행하고 슬레이브에서는 데이터를 색인한다. 더불어 기존 분산 고차원 색인 기법에서 k-최근접 질의 처리의 성능 문제를 해결하기 위해서 밀집도 및 탐색 비용을 고려한 k-최근접 질의 최적화 기법을 제안한다. 제안하는 기법의 우수성 및 타당성을 입증하기 위해 다양한 성능 평가를 수행한다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr