디지털 라이브러리[ 검색결과 ]
한국어 국회 회의록 생성 요약 말뭉치 구축 및 모델 개발
함영균, 강예지, 박서윤, 정용빈, 서현빈, 이이슬, 서혜진, 서샛별, 김한샘
http://doi.org/10.5626/JOK.2024.51.3.218
요약 연구의 주류는 아직 문서를 대상으로 하지만, 최근에는 회의 요약 연구에 대한 관심이 크게 높아지고 있다. 본 연구는 국립국어원 국어 빅데이터 구축 사업의 일환으로 국내에서 아직 연구되지 않은 국회 회의록 생성 요약에 대해 연구를 진행하였으며, 국회 회의록에 대한 생성 요약 데이터셋을 구축하였다. 구축한 데이터셋의 품질을 검증하기 위해 정성적인 인간 평가를 진행하였다. 또한 생성 요약 모델을 통해 구축된 데이터셋에 대한 정량 및 정성적 평가를 진행함으로써 국회 회의록 요약 데이터셋에 대한 평가 및 향후 생성 요약과 회의록 요약의 연구 방향을 모색하였다.
한국어 서술어와 지식베이스 프로퍼티 연결
본 논문은 자연언어 문장을 지식베이스의 지식 골격에 맞추어 지식의 형태로 변환하기 위한 과정 중의 하나인 관계추출(Relation Extraction)을 목표로 한다. 특히, 문장 내에 있는 서술어(Predicate)에 집중하여 서술어와 관련성 높은 지식베이스 프로퍼티(Property or Relation)를 찾아내고, 이를 통해 두 개체(Entity)간의 의미를 파악하는 관계추출에 초점을 둔다. 이에 널리 활용되는 원격지도학습(Distant Supervision) 접근 방식에 따라, 지식베이스와 자연언어 텍스트로부터 원격 학습이 가능한 레이블(Labeled)데이터를 자동으로 마련하여 지식베이스 프로퍼티에 대한 어휘화 작업을 수행한다. 즉, 두 개체 사이의 관계로 표현되는 서술어와, 온톨로지로 정의할 수 있는 프로퍼티와의 연결을 통해, 텍스트로부터 구조적 정보를 생성할 수 있는 기반을 마련하고 최종적으로 지식베이스 확장의 가능성을 열어준다.