검색 : [ keyword: Embedding ] (69)

개인 선호도 반영 임베딩을 활용한 순환신경망 추천 모델의 성능 향상 기법

임동신, 양용준, 조신

http://doi.org/10.5626/JOK.2021.48.11.1211

플랫폼에서 제공하는 콘텐츠 양이 급증하면서 추천 시스템은 플랫폼에서 필수적 요소가 되었다. 추천 시스템 가운데 협업 필터링 기법은 학계나 산업계에서 널리 활용되지만, 평점, 구매 이력 등 소비자의 정량적 정보에 의존한다는 한계가 있다. 이를 극복하고자 리뷰 데이터 등의 정성적 정보를 모델에 학습시켜 성능을 향상하는 연구들이 시도되어 왔다. 또한 최근에 순환 신경망을 적용하는 연구들은 소비자의 시계열 행동 데이터만으로 기존 추천시스템보다 좋은 성능을 보여주었다. 그러나 고객별 선호도를 추천 모델에 반영하는 연구는 아직 이루어지지 않았다. 본 논문은 고객의 로그 데이터를 기반으로 선호도 행렬을 산출하고, 이를 임베딩 벡터를 통해 순환 신경망에 학습시켜 개선된 추천 모델을 제시하였다. 이 모델은 기존 순환 신경망 모델에 비해 예측 성능이 향상됨을 확인할 수 있었다.

LDA와 WMD 기반의 공간 변환을 이용한 효과적인 문서 클러스터링 방법

김용담, 정성원

http://doi.org/10.5626/JOK.2021.48.9.1052

기존의 TF-IDF 기반의 문서 클러스터링 기법은 문서의 문맥 정보인 co-occurrence와 word-order에 대한 정보를 충분히 활용하지 못하고, “차원의 저주”로 인해 성능이 저하되는 문제가 있다. 이를 극복하기 위해서 워드 임베딩 벡터를 가중 평균을 하거나, Word Mover‘s Distance(WMD)를 사용한 기법들이 제안되었는데 제안된 기법들은 문서 간 분류에서는 좋은 성능을 보이지만, 문서 집단을 파악해야 하는 문서 클러스터링 에서는 좋은 성능을 보이지 못했다. 따라서 본 연구에서는 LDA를 활용하여 문서집단을 집단의 대표 문서인 토픽 문서로 새롭게 정의하여 토픽 문서를 기반으로 WMD를 계산하는 것으로 기존 문제를 해결한다. 하지만 WMD가 많은 계산량을 필요로 하기 때문에, 이를 해결하기 위해 각 문서를 토픽 문서와의 WMD값을 축으로 하는 저차원 공간으로 매핑하는 하는 것으로 계산량을 줄이면서 충분한 성능을 보이는 공간 변환 기법을 제시한다.

EFA-DTI: Edge Feature Attention을 활용한 약물-표적 상호작용 예측

에르햄바야르 자담바, 김수헌, 이현수, 김화종

http://doi.org/10.5626/JOK.2021.48.7.825

신약개발은 의약 화학, 시스템 및 구조 생물학, 더 나아가 인공지능에 이르기까지 다양한 학문을 필요로 하기 때문에 난이도가 높은 분야라고 할 수 있다. 특히, 약물-표적 상호작용(DTI) 예측은 방대한 양의 화합물로부터 질병을 치료할 수 있는 후보 물질을 도출해내는 과정으로, 신약 개발 과정에 있어 핵심 요소다. 최근에는 컴퓨터 성능이 비약적으로 발전함에 따라, DTI 예측에 소요되는 여러 측면의 비용을 줄이고자 인공지능 신경망을 활용하는 연구가 활발히 진행되고 있다. 따라서, 본 논문에서는 Edge Feature Attention을 적용한 Graph Net Embedding 및 Fingerprint를 활용한 약물 표현 생성과 ProtTrans를 활용한 단백질 표현 생성을 통해 약물과 표적 단백질 간의 상호작용 수치를 예측하는 모델을 제안한다. 해당 모델은 기존의 DTI 연구에서 가장 좋은 성능을 보였던 DeepDTA, GraphDTA보다 높은 성능을 달성하였으며, 이에 대한 실험 및 결과를 기술하였다.

사전 학습된 신경망 언어모델 기반 다중 임베딩 조합을 통한 소재 및 화학분야 개체명 인식 성능 비교 연구

이명훈, 신현호, 전홍우, 이재민, 하태현, 최성필

http://doi.org/10.5626/JOK.2021.48.6.696

최근 소재 및 화학분야의 급속한 발전으로 해당 분야 관련 학술 문헌이 기하급수적으로 늘어나고 있다. 이에 기존의 축적된 방대한 데이터에서 유의미한 정보를 추출하기 위한 연구들이 진행되고 있으며, 그 방법론 중 하나로 개체명 인식이 활용되고 있다. 소재 및 화학분야 개체명 인식은 학술 문헌에서 소재, 물성 정보, 실험 조건 등과 같은 정형화된 개체를 추출하고, 그 종류를 분류하는 작업이다. 본 논문에서는 신경망 언어 모델의 사전 훈련 없이 기존의 공개된 언어 모델을 임베딩 조합과 Bi-direction LSTM-CRF 모델을 사용하여 소재 및 화학분야 개체명 인식을 연구하였다. 그 결과 가장 성능이 좋은 조합을 도출하였고 그 이유를 분석하였다. 추가적으로 사전 학습 언어 모델 자체를 개체명 인식 모델로 사용하여 미세조정을 통해 성능을 비교하였다. 이를 통해 기존의 공개된 사전 학습 언어 모델들로 구성한 다중 임베딩 조합이 소재 및 화학분야 개체명 인식에서 유의미한 결과를 도출할 수 있음을 증명하였다.

Explanation segments 기반 설명 가능한 지식 완성 모델

이민호, 이완곤, 바트셀렘, 박영택

http://doi.org/10.5626/JOK.2021.48.6.680

최근 딥러닝을 활용하여 불완전한 지식 그래프를 대상으로 새로운 링크를 예측하는 연구가 많이 진행되고 있지만, 딥러닝을 활용한 링크 예측은 추론 결과에 대한 설명이 불가능하다는 한계점이 있다. 따라서 본 논문에서는 링크 예측 후, 추론 결과를 뒷받침하는 증거로서 설명 가능한 추론 경로를 제공하여 지식 완성의 효용성이 높은 모델을 제안한다. 이를 위해 우선 지식 그래프의 주어를 시작으로 목적어로 도달하는 또 다른 경로를 Path Ranking Algorithm 활용하여 생성하며, 이를 explanation segment라 정의하였다. 이 후 생성된 explanation segment를 CNN과 양방향 LSTM을 결합한 방식을 적용하여 임베딩 한다. 마지막으로 임베딩 된 explanation segment들과 추론할 후보 술어와의 의미적 유사성 계산을 기반으로 한 어텐션 메커니즘을 적용하여, 링크 예측 모델을 학습하였다. 모델 학습 후 링크 예측 설명에 적합한 explanation segment를 어텐션 점수에 기반으로 선정하여 제공한다. 제안하는 방법의 성능을 측정하기 위해 링크 예측 비교 실험 및 링크 예측 결과에 대한 설명으로 적합한 explanation segment의 비율을 측정하는 정확성 검증 실험을 진행하였다. 실험 데이터는 벤치마크 데이터인 NELL-995, FB15K-237, Countries를 대상으로 진행하였으며, 정확성 검증 실험에서 평균 89%. 44%, 97% 정확성을 보였고, 기존 연구와 비교했을 때, NELL-995는 평균 35%p, FB15K-237은 평균 21%p 높은 성능을 보였다.

질의문과 지식 그래프 관계 학습을 통한 지식 완성 시스템

김민성, 이민호, 이완곤, 박영택

http://doi.org/10.5626/JOK.2021.48.6.649

지식 그래프는 개체들 사이의 관계로 구성된 네트워크를 뜻한다. 이러한 지식 그래프에서 특정 개체들에 대한 관계가 누락되거나 잘못된 관계 연결과 같은 문제로 불완전한 지식 그래프의 문제점이 존재한다. 불완전한 지식 그래프의 문제를 해결하기 위한 많은 연구는 자연어 임베딩 기반으로 인공 신경망을 이용한 학습 방법들을 제안했다. 이러한 방법들로 다양한 지식 그래프 완성 시스템들이 연구되고 있는데 본 논문에서는 특정 질의와 지식 그래프를 활용해 누락된 지식을 추론하는 시스템을 제안하였다. 먼저 의문형의 Query로부터 topic을 자동으로 추출하여 해당 topic 임베딩을 지식 그래프 임베딩 모듈로부터 얻는다. 그 다음 Query 임베딩과 지식 그래프 임베딩을 활용하여 지식 그래프로부터의 topic과 질의문 사이의 관계를 학습하여 새로운 트리플을 추론한다. 이와 같은 방식을 통해 누락된 지식들을 추론하고 좋은 성능을 위해 특정 질의와 관련된 지식 그래프의 술어부 임베딩을 같이 활용하였고 기존 방법보다 더 좋은 성능을 보임을 증명하기 위해 MetaQA 데이터셋을 사용하여 실험을 진행하였다. 지식 그래프는 영화를 도메인으로 갖는 지식 그래프를 사용하였다. 실험 결과로 지식 그래프 전체와 누락된 지식 그래프를 가정하여 트리플들을 임의로 50% 누락시킨 지식 그래프에서 실험하여 기존 방법보다 더 좋은 성능을 얻었다.

뉴로 심볼릭 기반 규칙 생성을 통한 지식 완성 기법

노재승, 신원철, 박현규, 박영택

http://doi.org/10.5626/JOK.2021.48.4.425

지식 그래프는 실세계의 지식을 다양한 소스로부터 수집하여 구조화된 방식으로 표현한 것이다. 지식 그래프는 데이터들 간의 관계를 표현한 네트워크로서 인공지능 기술에 접목되어 다양하게 활용되고 있지만, 엔티티 또는 엔티티 사이의 링크가 누락되어 지식의 불완전성에 대한 문제가 존재한다. 이러한 문제 해결을 위해 자동 지식 완성 기법 연구가 중요하게 요구되며, 임베딩 기법을 사용하거나 딥러닝을 활용한 연구와 온톨로지를 이용한 심볼릭 규칙 추론을 통한 지식 완성 수행과 같은 다양한 연구들이 진행되었다. 이러한 방식을 통해 효율적으로 자동 지식 완성을 수행하지만 딥러닝 방식은 데이터 기반의 처리방식으로 인해 대량의 학습 데이터가 요구되며, 결과에 대한 설명이 불가능한 문제점이 있다. 그리고 온톨로지 기반의 방식은 전문가에 의해 정의된 온톨로지 및 규칙이 필요하다는 문제가 존재한다. 따라서 본 논문에서는 뉴로 심볼릭 방식을 이용하여 데이터에 내포된 규칙을 명시적으로 추출하여 자동 지식 완성방법을 제안한다. 규칙 추출을 위해 심볼릭 방식의 단일화(unification) 기반의 릴레이션 임베딩 경로를 구현하고, 이에 대한 손실 함수를 정의하여 자동으로 규칙을 생성한다. 기존의 임베딩 기법에 비하여 뉴로 심볼릭 방식은 속도와 성능이 더 우월함을 보여준다. 제안하는 방법의 성능을 측정하기 위해 Nations, UMLS, Kinship 데이터 셋을 대상으로 최신 지식 완성 연구와 비교 실험을 진행하였으며, 학습 시간이 크게 감소했고, 평균적으로 성능이 37.5%p 증가한 것을 확인하였다.

Improvement in Network Intrusion Detection based on LSTM and Feature Embedding

Hyeokmin Gwon, Chungjun Lee, Rakun Keum, Heeyoul Choi

http://doi.org/10.5626/JOK.2021.48.4.418

NIDS(Network Intrusion Detection System)는 네트워크 경계 보안에 필수적인 도구로써 네트워크 침입을 감지하기 위해 네트워크 트래픽 패킷을 검사한다. 현존하는 많은 연구들은 NIDS를 구축하기 위해 기계 학습 기법을 사용했는데, 이러한 연구들은 다양한 인공지능 알고리즘의 효과를 입증했지만, 네트워크 트래픽 데이터의 시계열 정보를 활용하는 경우는 드물었다. 신경망 기반 모델을 이용한 연구에는 네트워크 트래픽 데이터의 범주형 정보를 보다 더 효과적으로 활용할 수 있는 가능성이 남아있다. 본 논문에서는 LSTM(Long Short-Term Memory) 네트워크를 이용한 순차정보와 임베딩 기법을 이용한 범주형 정보에 근거한 네트워크 침입 탐지 모델을 제안한다. 검증을 위해 종합적인 네트워크 트래픽 데이터 집합인 UNSW-NB15를 이용하여 비교 실험을 수행하였고, 실험 결과는 제안된 방법이 99.72%의 이항 분류 정확도로 기존의 방식들 보다 높은 성능을 보이는 것을 확인하였다.

LSTM 오토인코더를 이용한 가중 그래프 임베딩 기법

서민지, 이기용

http://doi.org/10.5626/JOK.2021.48.1.13

그래프 임베딩이란 그래프를 저차원 공간의 벡터로 표현하는 것이다. 최근, 딥러닝을 사용해 그래프를 임베딩하는 연구가 진행되고 있지만 대부분의 연구는 그래프의 노드 간 연결 구조에 집중하고 노드간 간선에 임의의 가중치를 갖는 가중 그래프에 대한 임베딩 기법에 대해서 많은 연구가 진행되지 않았다. 따라서 본 논문에서는 가중 그래프를 위한 새로운 임베딩 기법을 제안한다. 제안 기법은 가중 그래프가 주어지면 먼저 해당 그래프의 내부에 존재하는 노드-가중치 시퀀스들을 추출한 다음 LSTM 오토인코더를 사용해 각 시퀀스들을 고정된 길이의 벡터로 인코딩한다. 마지막으로 각 그래프의 인코딩 벡터들을 모아 하나의 최종 임베딩 벡터를 생성한다. 이렇게 얻어진 임베딩 벡터는 가중 그래프간 유사도 측정이나 분류 등에 활용될 수 있다. 여러 유사 가중 그래프 그룹들로 구성된 합성 데이터와 실제 데이터를 이용한 실험을 통해 제안 기법이 유사 가중 그래프를 탐색하는데 94% 이상의 정확도를 보임을 확인하였다.

인기 클립 탐지를 위한 트위치 이모트 임베딩 방법

송현호, 박건우, 차미영

http://doi.org/10.5626/JOK.2020.47.12.1153

실시간 스트리밍에서 시청자 반응을 효과적으로 이해하기 위해, 이 연구는 트위치(Twitch.tv) 이모트의 의미를 효과적으로 학습하는 임베딩 방법을 제시한다. 제안한 방법은 먼저 텍스트와 이모트 임베딩 행렬을 따로 학습한 뒤 두 임베딩 결과를 하나로 병합한다. 트위치에 공유된 2,220,761건의 클립 영상을 이용해, 이 연구는 두 가지 실험을 수행한다: 군집 및 클립 인기도 예측. 실험 결과는 이 방법이 비슷한 의미의 감정이 포함된 군집을 발견할 수 있을 뿐 아니라, 인기 클립을 잘 분류할 수 있음을 보인다. 미래 연구는 실시간 스트리밍 하이라이트 예측을 위해 제안한 이모트 임베딩 방법을 활용할 수 있을 것이다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr