검색 : [ keyword: Knowledge Base ] (10)

질의응답에 대한 지식베이스 기반 근거 문장 생성 모델

성수진, 차정원

http://doi.org/10.5626/JOK.2023.50.11.940

본 연구에서는 지식베이스로부터 질의에 대한 근거 문장을 생성하여 응답 추론 과정에 정보를 추가하고, 사람이 읽기 쉬운 형태의 근거 문장을 제공하고자 한다. 이를 위해 HotpotQA 데이터 내 근거 문서에 대한 디비피디아와 위키데이터 두 개의 지식베이스를 직접 수집하고, 수집된 트리플을 기반으로 근거 문장 생성 모델을 학습한다. 답변 생성 모델은 생성된 근거 문장과 질문을 입력으로 학습한다. 지식베이스를 기반으로 생성된 근거 문장은 디비피디아와 위키데이터에 관계없이 모두 응답 생성에 대해 긍정적인 추가 정보를 제공하여 응답 생성 성능을 향상시킬 수 있었고, 사람이 이해할 수 있는 문장을 생성할 수 있었다.

Efficient Approach for Encoding and Compression of RDF Knowledge Bases

Tangina Sultana, Young-Koo Lee

http://doi.org/10.5626/JOK.2022.49.3.241

엔티티 중심 검색 및 자연어 기반 질의의 엄청난 성장으로 인해 활용 가능한 지식 베이스(Knowledge Bases, KBs)의 크기가 기하급수적으로 증가하였다. 따라서 대용량의 데이터를 효율적으로 검색하는 SPARQL 쿼리 검색 엔진이 필요하다. RDF 엔진은 주로 지식 베이스를 관리하기 위해 순서, 좌표, 구문 및 해시 기반 인코딩을 사용한다. 그러나 대부분의 기존 방법에서는 더 좋은 압축률을 보이지 못하고, 적재 시간이 느리며, 질의 성능이 효율적이지 않다. 따라서 본 논문에서는 더 높은 압축률을 달성하고 압축 및 인코딩된 데이터에 대한 SPARQL 쿼리의 성능을 향상시키기 위해 빈발하고 의미적으로 관련된 용어를 감지하는 접근 방식을 제안한다. 이 기법은 통계 정보와 의미론적 접근을 결합한 접근 방식으로 사전 인코딩 알고리즘을 기반으로 한다. 의미론을 기반으로 자주 사용되지 않는 용어를 식별하는 스키마를 도입했다. 그리고 시스템은 의미론적으로 관련된 데이터를 온톨로지 클래스로 조합하여 필요한 메모리 적재를 통해 로딩 시간을 더욱 줄여준다. 우리는 제안된 기법을 기존의 접근 방식과 실험을 통해 비교를 진행하고, 실험 결과 우리가 제안한 접근 방식이 기존 시스템보다 지식 베이스를 훨씬 더 효과적으로 압축하고 인코딩함을 확인한다.

지식베이스로부터 자연어 문장 생성을 위한 노이즈 추가 기법

권성구, 박세영

http://doi.org/10.5626/JOK.2020.47.10.965

지식베이스로부터 자연어 문장 생성이란 지식베이스 내 트리플을 입력하여 트리플이 내포하고 있는 정보, 즉 개체와 각 개체간의 관계를 포함하고 있는 자연어 문장을 생성하는 작업이다. 해당 작업을 심층신경망 방식으로 해결하기 위해서는 많은 트리플과 자연어 문장 쌍으로 구성된 학습데이터가 필요하다. 하지만 이와 같은 공개 된 한국어 학습데이터는 존재하지 않기 때문에 학습에 어려움을 겪고 있다. 본 논문에서는 이러한 학습 데이터 부족 문제를 해결하기 위하여 한국어 위키피디아 문장 데이터를 기반으로 핵심어를 추출한 뒤, 노이즈 추가 기법을 이용해 학습 데이터를 생성하는 비지도 학습 방법을 제안한다. 제안 모델을 평가하기 위하여 사람이 직접 제작한 트리플과 자연어 문장 쌍 정답 데이터를 이용하여 평가를 수행하였다. 자동 평가와 수동 평가 결과, 노이즈 추가 기법을 이용한 자연어 문장 생성 모델이 기존 비지도 학습 데이터를 이용한 모델보다 여러 측면에서 높은 성능을 보였다.

듀얼 포인터 네트워크를 사용한 다중 개체 간의 관계 추출

박성식, 김학수

http://doi.org/10.5626/JOK.2019.46.11.1186

정보 추출은 비정형 텍스트로부터 정형 데이터를 자동으로 추출하는 기술이다. 최근 대용량의 비정형 텍스트가 급격히 증가함에 따라 정보 추출에 대한 많은 연구가 이루어지고 있다. 정보 추출은 크게 개체 연결과 관계 추출 두 가지 기술로 구성되며 관계 추출은 정보 추출에 있어 가장 핵심이 되는 기술이다. 최근까지 대부분의 관계 추출 연구는 문장에 한 쌍의 개체만 존재한다고 가정하며 단일 개체 쌍간의 관계를 추출하는데 초점이 맞춰져 있다. 그러나 실제로 문장에는 한 쌍 이상의 개체가 존재할 수 있다. 본 논문은 주어진 문장에서 가능한 모든 개체 쌍 간의 관계를 추출할 수 있는 듀얼 포인터 네트워크 기반 관계 추출 모델을 제안한다. 제안 모델은 관계 추출에 대표적으로 사용되는 영문 데이터 셋인 ACE-2005 데이터 셋과 NYT 데이터 셋으로 실험을 진행했으며, ACE-2005에서 F1 점수 0.8050, NYT 데이터 셋에서 F1 점수 0.7834로 가장 높은 성능을 보였다.

지식베이스 임베딩 및 관계 모델을 활용한 오류 트리플 검출

홍지훈, 최현영, 이완곤, 박영택

http://doi.org/10.5626/JOK.2019.46.2.131

최근 인터넷의 발전으로 정보의 양이 늘어나면서 대용량 지식베이스를 이용한 연구에 관심이 많아지는 추세이다. 또한 지식베이스가 다양한 연구에 많이 활용됨에 따라 지식베이스를 완성하는 연구가 진행되고 있다. 하지만 지식베이스 내 오류 트리플을 검출하는 연구가 부족하다. 본 논문에서는 지식베이스 내의 오류 트리플을 검출하기 위해 임베딩 알고리즘을 사용하여 임베딩을 진행한 뒤 클러스터링 한 임베딩 모델과, 트리플 분류의 대표적인 알고리즘인 4가지의 릴레이션 모델을 활용하는 것을 제안한다. 또한, 싱글 임베딩 모델들의 결과를 사용한 임베딩 앙상블 모델과 싱글 릴레이션 모델들의 결과를 사용한 릴레이션 앙상블 모델을 생성하여 모델 검증 지표를 통해 오류 트리플 검출 결과를 비교 측정하였다.

요구 공학 과정에서 보안성과 사용성 요구사항 사이의 충돌을 발견하기 위한 온톨로지 기반 접근법

노우리, 이석원

http://doi.org/10.5626/JOK.2018.45.11.1142

요구 공학 과정에서 보안성과 사용성 사이의 충돌을 다루는 일은 어렵다. 보안성과 사용성은 충돌하는 특성을 가지며 관련된 의미론적인 통합 연구가 부족하기 때문이다. 또한 보안 전문가의 수가 감소하고 있으며 요구 공학 과정에서 두 요소 사이의 충돌을 발견하는 방법이 마땅치 않다. 따라서, 우리는 보안성과 사용성의 정의, 기준, 그리고 지표에서 추출한 키워드를 연결하여 3계층의 보안성-사용성 온톨로지 지식 베이스를 구축하는 새로운 접근법을 제안한다. 게다가, 우리는 이 지식 베이스의 실용성을 논의하기 위하여 컴퓨터 공학 전공 학생들과 두 가지의 사례 연구를 진행하였다. 그 결과, 제안하는 지식 베이스를 사용한 그룹(팀 A)이 사용하지 않은 그룹(팀 B)보다 신뢰도가 높은 충돌을 더 많이 예측하였다. 제안하는 접근법은 사용자의 지식 수준에 상관없이 요구 공학 과정에서 보안성과 사용성 사이의 충돌을 발견할 수 있으며 지금까지 요구 공학 연구의 실질적인 부분에 대한 증명이 어려웠음에도 불구하고 요구 공학연구의 응용 가능성을 보여주었다.

음수 미포함 행렬 분해를 통한 지식베이스 확장 모델

김지호, 남상하, 최기선

http://doi.org/10.5626/JOK.2018.45.9.918

지식베이스는 기계가 이해할 수 있도록 세상에 존재하는 모든 지식을 데이터베이스화 하는 것에 그 목적이 있다. 지식베이스가 유용하게 사용될 수 있기 위해서는 지속적으로 새로운 지식을 획득하여 추가해야 하는데, 지식 획득 능력의 부족으로 항상 지식 부족 문제에 시달리고 있다. 지식 획득은 주로 자연언어문장을 분석하여 새로운 지식을 추출하는 외부적인 지식 획득에 의해서 이루어지지만, 지식베이스 내부에 있는 지식만을 이용하여 내부적으로 지식을 확장해 나가는 방법에 대해서는 연구가 소홀이 이루어지고 있다. 따라서 본 논문에서는 음수 미포함 행렬 분해를 통한 내부적인 지식베이스 확장에 관하여 소개한다. 본 논문에서 소개하는 모델은 지식베이스를 행렬로 변환한 뒤에 음수 미포함 행렬 분해를 통해 개체쌍과 관계의 특징 벡터들을 학습하고, 이를 다시 재조합하여 새로운 지식에 대한 신뢰도를 계산한다. 모델의 실효성을 입증하기 위하여 한국어 디비피디아를 대상으로 한 실험 및 분석 결과를 소개한다.

지식 베이스 임베딩을 활용한 지식 완성 모델링 기법

최현영, 홍지훈, 이완곤, 바트셀렘, 전명중, 박현규, 박영택

http://doi.org/10.5626/JOK.2018.45.9.895

최근 웹 데이터를 기반으로 자동적으로 지식베이스를 구축하는 방법들이 연구되고 있지만, 웹데이지터의 불완전성으로 인해 일부 데이터가 누락되거나 다른 데이터와의 연결이 부족한 경우가 발생한다. 이러한 문제를 해결하기 위해 기존 연구들은 자연어 임베딩을 기반으로 인공 신경망을 통해 학습하는 방법들을 제안했다. 하지만 실제로 사용되는 많은 지식베이스의 경우 자연어 말뭉치가 존재하지 않아 엔티티 임베딩에 어려움이 있다. 따라서 본 논문에서는 이러한 문제점을 해결하기 위해 지식 베이스의 RDF 데이터를 문장 형태의 RDF-Sentence로 변환 후 임베딩에 사용하여 단어 벡터를 생성하고 신경망을 사용하는 지식 완성 기법을 제안한다. 본 논문에서는 제안하는 방법의 성능을 측정하기 위해 트리플 분류 실험을 진행했다. 기존 NTN 모델과 비교 실험을 수행하였고, 기존 연구보다 평균적으로 15% 높은 정확도를 얻었다. 또한, 한국어 최대 지식 베이스인 WiseKB 지식 베이스에 적용하여 88%의 정확도를 얻었다.

한국어 서술어와 지식베이스 프로퍼티 연결

원유성, 우종성, 김지성, 함영균, 최기선

http://doi.org/

본 논문은 자연언어 문장을 지식베이스의 지식 골격에 맞추어 지식의 형태로 변환하기 위한 과정 중의 하나인 관계추출(Relation Extraction)을 목표로 한다. 특히, 문장 내에 있는 서술어(Predicate)에 집중하여 서술어와 관련성 높은 지식베이스 프로퍼티(Property or Relation)를 찾아내고, 이를 통해 두 개체(Entity)간의 의미를 파악하는 관계추출에 초점을 둔다. 이에 널리 활용되는 원격지도학습(Distant Supervision) 접근 방식에 따라, 지식베이스와 자연언어 텍스트로부터 원격 학습이 가능한 레이블(Labeled)데이터를 자동으로 마련하여 지식베이스 프로퍼티에 대한 어휘화 작업을 수행한다. 즉, 두 개체 사이의 관계로 표현되는 서술어와, 온톨로지로 정의할 수 있는 프로퍼티와의 연결을 통해, 텍스트로부터 구조적 정보를 생성할 수 있는 기반을 마련하고 최종적으로 지식베이스 확장의 가능성을 열어준다.

위키백과로부터 기계학습 기반 한국어 지식베이스 구축

정석원, 최맹식, 김학수

http://doi.org/

지식베이스는 자연어 처리 기반의 다양한 응용 시스템 성능에 영향을 미치는 중요한 요소이다. 영어권에서는 WordNet, YAGO, Cyc, BabelNet과 같은 지식베이스들이 널리 사용되고 있다. 본 논문에서는 위키백과와 YAGO로부터 YAGO 형식의 한국어 지식베이스(이하 K-YAGO)를 자동 구축하는 방법을 제안한다. 제안 시스템은 YAGO와 위키백과 인포박스간의 간단한 매칭을 통해 초기 K-YAGO를 구축한 뒤, 기계학습을 이용하여 초기 K-YAGO를 확장한다. 실험 결과, 제안 시스템은 초기 K-YAGO 구축 실험에서 0.9642의 신뢰도를 보였고, K-YAGO 확장 실험에서 0.9468의 정확도와 0.7596의 매크로 F1 척도를 보였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr