검색 : [ keyword: Embedding ] (69)

효율적인 자동 주석을 위한 단어 임베딩 인공 신경 정리 증명계 구축

양원석, 박한철, 박종철

http://doi.org/

본 연구는 전문기관에서 생산되는 검증된 문서의 정보를 웹상의 수많은 검증되지 않은 문서에 자동 주석하여 신뢰도를 향상하고 심화 정보를 추가하는 시스템을 제안한다. 제안하는 시스템은 국가암정보센터의 검증된 문서들에서 추출한 19,304개 명제를 위키피디아 암 관련 문서에서 추출한 1,486개 명제에 주석하는 과제를 수행하기 위해, 기존 인공 신경 정리 증명계의 순환 모듈을 단어 임베딩 모듈로 교체하였다. 이를 통해 기존의 근본적인 문제점이었던 학습 시간 문제를 해결하였고, 동일한 환경에서 기존 시스템의 학습 시간이 233.9일로 추정된 것에 비해 재구축한 시스템은 102.1분 내로 학습이 완료되었다. 제안하는 시스템의 장점은 명제를 텐서로 인코딩하여 미분 가능하게 전체적인 연산을 진행하는 인공 신경 정리 증명계가 단어의 정확한 일치를 파악하는 전통적인 정리 증명계를 포함하며 동시에 유사어 관계로부터의 논리 전개 역시 가능하게 한다는 점을 실제 문서 데이터에서 입증했다는 것이다.

K개의 점 데이터를 포함하는 최소MBR 탐색

김건우, 김영훈

http://doi.org/

스마트폰과 같은 GPS센서가 장착된 모바일 기기가 널리 보급되고 있다. 이러한 추세에 따라 트위터나 페이스북과 같은 소셜 미디어에서 GEO태그가 된 메시지 (즉, GPS 위치를 갖는 멀티미디어 메시지)를 손쉽게 작성할 수 있게 되었고 게시자의 위치정보를 포함하는 공간데이터가 급증하고 있다. 그러나 이러한 공간데이터에서 항상 위치 정보와 게시글 내용이 명시적인 연관성을 갖고 있지는 않다. 때문에 키워드와 위치정보 분포의 관련성에 따라 검색결과를 재구성할 필요가 있다. 우리는 크기가 가장 작은 k개의 점 데이터를 포함하는 최소경계사각형(MBR)을 찾음으로써 데이터가 가장 밀집된 사각형을 찾으며, 이는 위치 검색시스템에서 유용하게 사용될 수 있다. 본 논문은 최소경계사각형과 같이 거리가 가까운 2차원 공간데이터의 묶음을 찾기 위해 효율적인 알고리즘을 제안하였고 합성데이터와 실제 데이터를 이용한 실험을 통해 알고리즘의 효율성을 검증하였다.

의미 유사도를 활용한 Distant Supervision 기반의 트리플 생성 성능 향상

윤희근, 최수정, 박성배

http://doi.org/

기존의 패턴기반 트리플 생성 시스템은 distant supervision의 가정으로 인해 오류 패턴을 생성하여 트리플 생성 시스템의 성능을 저하시키는 문제점이 있다. 이 문제점을 해결하기 위해 본 논문에서는 패턴과 프로퍼티 사이의 의미 유사도 기반의 패턴 신뢰도를 측정하여 오류 패턴을 제거하는 방법을 제안한다. 의미 유사도 측정은 비지도 학습 방법인 워드임베딩과 워드넷 기반의 어휘 의미 유사도 측정 방법을 결합하여 사용한다. 또한 한국어 패턴과 영어 프로퍼티 사이의 언어 및 어휘 불일치 문제를 해결하기 위해 정준 상관 분석과 사전 기반의 번역을 사용한다. 실험 결과에 따르면 제안한 의미 유사도 기반의 패턴 신뢰도 측정 방법이 기존의 방법보다 10% 높은 정확률의 트리플 집합을 생성하여, 트리플 생성 성능 향상을 증명하였다.

Word Embedding 자질을 이용한 한국어 개체명 인식 및 분류

최윤수, 차정원

http://doi.org/

한국어 개체명 인식에 다양한 연구가 있었지만, 영어 개체명 인식에 비해 자질이 부족한 문제를 가지고 있다. 본 논문에서는 한국어 개체명 인식의 자질 부족 문제를 해결하기 위해 word embedding 자질을 개체명 인식에 사용하는 방법을 제안한다. CBOW(Continuous Bag-of-Words) 모델을 이용하여 word vector를 생성하고, word vector로부터 K-means 알고리즘을 이용하여 군집 정보를 생성한다. word vector와 군집 정보를 word embedding 자질로써 CRFs(Conditional Random Fields)에 사용한다. 실험 결과 TV 도메인과 Sports 도메인, IT 도메인에서 기본 시스템보다 각각 1.17%, 0.61%, 1.19% 성능이 향상되었다. 또한 제안 방법이 다른 개체명 인식 및 분류 시스템보다 성능이 향상되는 것을 보여 그 효용성을 입증했다.

한국어 서술어와 지식베이스 프로퍼티 연결

원유성, 우종성, 김지성, 함영균, 최기선

http://doi.org/

본 논문은 자연언어 문장을 지식베이스의 지식 골격에 맞추어 지식의 형태로 변환하기 위한 과정 중의 하나인 관계추출(Relation Extraction)을 목표로 한다. 특히, 문장 내에 있는 서술어(Predicate)에 집중하여 서술어와 관련성 높은 지식베이스 프로퍼티(Property or Relation)를 찾아내고, 이를 통해 두 개체(Entity)간의 의미를 파악하는 관계추출에 초점을 둔다. 이에 널리 활용되는 원격지도학습(Distant Supervision) 접근 방식에 따라, 지식베이스와 자연언어 텍스트로부터 원격 학습이 가능한 레이블(Labeled)데이터를 자동으로 마련하여 지식베이스 프로퍼티에 대한 어휘화 작업을 수행한다. 즉, 두 개체 사이의 관계로 표현되는 서술어와, 온톨로지로 정의할 수 있는 프로퍼티와의 연결을 통해, 텍스트로부터 구조적 정보를 생성할 수 있는 기반을 마련하고 최종적으로 지식베이스 확장의 가능성을 열어준다.

딥 러닝을 이용한 한국어 형태소의 원형 복원 오류 수정

황현선, 이창기

http://doi.org/

한국어 형태소 분석은 교착어 특성상 난이도가 높은 작업이다. 그 중에서 형태소의 원형 복원작업은 규칙이나 기분석 사전 정보 등을 활용하는 방법이 주로 연구되었다. 그러나 이러한 방법들은 어휘수준의 문맥 정보를 보지 못하기 때문에 원형 복원에 한계가 있다. 본 논문에서는 최근 자연어처리에 연구되고 있는 기계학습 방법인 딥 러닝(deep learning)을 사용하여 형태소의 원형 복원 문제의 해결을 시도하였다. 문맥 정보를 보기 위해 단어 표현(word embedding)을 사용하여 기존의 방법들 보다 높은 성능을 보였다. 실험 결과, ‘들/VV’과 ‘듣/VV’의 복원 문제에 대해서 97.97%로 기존의 자연어처리에 쓰이는 기계학습 방법 중 하나인 SVM(Support Vector Machine)의 96.22% 보다 1.75% 높은 성능을 보였다.

SIFT 기술자 이진화를 이용한 근-복사 이미지 검출 후-검증 방법

이유진, 낭종호

http://doi.org/

최근 이미지 컨텐츠에 쉽게 접근할 수 있는 인터넷 환경과 이미지 편집 기술들의 보급으로 근-복사 이미지가 폭발적으로 증가하면서 관련 연구가 활발하게 이루어지고 있다. 그러나 근-복사 이미지 검출 방법으로 주로 쓰이는 BoF(Bag-of-Feature)는 고차원의 지역 특징을 저차원으로 근사화하는 양자화과정에서 서로 다른 특징들을 같다고 하거나 같은 특징을 다르다고 하는 한계가 발생할 수 있으므로 이를 극복하기 위한 후-검증 방법이 필요하다. 본 논문에서는 BoF의 후-검증 방법으로 SIFT(Scale Invariant Feature Transform) 기술자를 128bit의 이진 코드로 변환한 후 BoF 방법에 의하여 추출된 짧은 후보 리스트에 대하여 변환한 코드들간의 거리를 비교하는 방법을 제안하고 성능을 분석하였다. 1500장의 원본 이미지들에 대한 실험을 통하여 기존의 BoF 방법과 비교하여 근-복사 이미지 검출 정확도가 4% 향상됨을 보였다.

얼굴 인식을 위한 연립 대각화와 국부 선형 임베딩

김은솔, 노영균, 장병탁

http://doi.org/

국부 선형 임베딩(Locally Linear Embedding, LLE) [1]는 다양체 학습(manifold learning) 알고리즘 중 하나로 고차원 공간에 있는 데이터들 사이의 내적 값을 기반으로 임베딩하는 방법이다. LLE를 이용하여 임베딩 한 결과는 독특한 성질이 있는데, 고차원 공간 상에서 같은 평면에 있는 데이터들은 내적 값이 크기 때문에 저차원 공간에서도 가깝게 위치하도록 임베딩 되는 반면 수직으로 위치한 평면에 있는 데이터들은 내적 값이 0이 되기 때문에 서로 떨어진 위치에 임베딩된다. 한편, 한 사람의 얼굴에 다양한 각도에서 조명을 비추면서 촬영한 이미지들은 저차원의 선형 부분공간을 구성한다는 사실이 잘 알려져 있다 [2]. 이에 본 논문에서는 다른 평면에 위치하는 데이터들을 자연스럽게 분류하여 임베딩하는 LLE 알고리즘을 얼굴 이미지에 사용하여 효과적으로 얼굴 인식 문제를 해결할 수 있는 방법을 제안한다. 제안하는 방법은 LLE에 연립 대각화(Simultaneous Diagonalization, SD)를 적용한 방법으로, S연립 대각화를 적용하면 데이터들이 형성하는 평면이 수직이 되도록 바꿀 수 있기 때문에 LLE의 성질을 극대화 할 수 있다. 실험 결과, 연립 대각화를 적용하고 LLE를 적용하면 서로 다른 사람의 얼굴 이미지들이 겹치지 않고 뚜렷하게 구분되는 효과가 있음을 확인하였다.

지속적인 그래프 임베딩에서 효과적인 중요도 기반 개체 그룹화 기법

이경환, 최동완

http://doi.org/10.5626/JOK.2025.52.7.627

본 연구는 지속적인 그래프 임베딩에서 개체 중요도 평가의 정확성을 개선하기 위해 관계의 매개 중심성을 가중치 기반 페이지랭크 알고리즘의 가중치로 적용하는 새로운 방법론을 제안한다. 간선 매개 중심성을 정규화해 모델에 통합함으로써, 제안 기법은 간선을 통한 정보 흐름의 중요성을 반영하면서 개체 중요도를 효과적으로 전파해 네트워크 전반의 학습 성능을 향상시킨다. 실험 결과, 다양한 데이터셋 에서 MRR 및 Hit@N 지표에서 기존 기법 대비 유의미한 성능 향상을 보였다. 특히, 새로운 개체와 관계가 지속적으로 추가되는 환경에서 제안 방법은 첫 번째 스냅샷 이후 높은 성능 개선을 나타냈다. 이러한 결과는 관계의 중심성을 활용한 개체 중요도 전파가 지속적인 지식 그래프 임베딩의 학습 효율성을 크게 증대시킬 수 있음을 시사한다.

신약 후보 물질의 ADMET 속성 예측을 위한 사전학습 모델 기반의 일반화 성능 향상 기법

김윤주, 박상현

http://doi.org/10.5626/JOK.2025.52.7.601

신약 개발 과정에서 ADMET(흡수, 분포, 대사, 배설, 독성) 속성의 정확한 예측은 임상 시험 실패율을 낮추고 개발 비용을 절감하는 데 중요한 역할을 한다. 본 연구에서는 그래프 트랜스포머 기반의 분자 임베딩과 사전 학습된 UniMol 모델 기반의 임베딩을 결합하여 신약 후보 물질의 ADMET 예측 성능을 높이는 방법을 제안한다. 제안된 모델은 분자의 그래프 구조에서 결합 유형 정보를 반영하여 보다 화학적으로 정교한 표현을 생성하며, UniMol의 사전 학습된 3D 임베딩을 활용하여 분자의 공간적 특성을 효과적으로 학습한다. 이를 통해 데이터 부족 문제를 보완하고, 모델의 일반화 성능을 향상시킬 수 있도록 설계하였다. 본 연구에서는 총 10개의 ADMET 속성을 대상으로 예측 실험을 수행하였다. 실험 결과, 제안된 모델은 기존 방법들보다 우수한 예측 성능을 보였으며, 원자의 결합 정보와 3D 구조를 효과적으로 통합함으로써 ADMET 속성 예측의 정확도를 향상시킬 수 있음을 확인하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr