검색 : [ author: Chaewon Lee ] (2)

생략어 복원과 의존구문분석을 활용한 한국어 지식그래프 구축 방안

이채원, 이강배, 유성열

http://doi.org/10.5626/JOK.2024.51.8.736

본 연구는 생략어 복원, 의존구문분석, 그리고 ChatGPT를 활용하여 한국어 지식그래프 구축을 위한 새로운 접근 방안을 제안한다. 한국어 언어적 특성상 발생하는 성능 제약에 대한 해결방안으로 생략 어 복원과 의존구문분석을 결합한 프롬프트 엔지니어링을 적용하였다. 본 연구에서 제안하는 'Ko-Triple Extraction' 과정을 통해 문장에서 생략된 정보를 복원하고 의존 구조를 분석하여 정교하고 정확한 트리 플 구조를 추출하였다. 연구 결과, 본 연구에서 제안한 방법은 한국어 처리의 효율성과 정확성을 크게 향 상시켰으며, 트리플의 적합성을 평가하여 유효성을 검증하였다. 향후 연구에서 'Ko-Triple Extraction'을 다양한 산업 분야에 적용하고, 지식 그래프의 확장 및 연결성을 통해 실질적인 비즈니스 인사이트를 도출 하고자 한다. 본 연구는 한국어 텍스트 처리를 위한 기반 연구로서의 의의를 가지며, 분야에서의 한국어 활용도를 높이는 데 중요한 기여를 할 것으로 기대된다.

텍스트 증강 기법과 전이학습을 활용한 의도 분류 방법 제안

이희원, 박성호, 이채원, 이승현, 이강배

http://doi.org/10.5626/JOK.2024.51.2.141

의도 분류는 목적지향 챗봇의 첫 번째 단계로 성능 향상을 위한 중요한 문제이지만 목적지향형 챗봇은 특정 도메인에 대한 데이터 부족 문제가 존재한다. 본 연구는 텍스트 증강 기법과 전이학습을 활용하여 데이터 부족 문제를 해결하고자 한다. 기존에 전이학습 및 텍스트 증강 기법을 활용한 연구는 존재하나 다양한 도메인에 적용 가능한 연구는 찾아보기 어려웠다. 본 연구는 다양한 도메인에 적용 가능한 텍스트 증강 기법 및 전이학습 방법을 제안한다. 실험을 위해 8개의 도메인에서 실제 발화 의도의 비율에 맞추어 데이터를 10,000개, 20,000개, 30,000개 미만으로 구축하였다. 실험 결과 도메인에 따라 차이는 존재 하였지만 8개의 도메인 모두 본 연구에서 제시한 방법이 우수함을 확인하였다. 학습 데이터의 크기가 작은 순서로 8개의 도메인에 대한 정확도는 평균적으로 10%, 3.4%, 1.9% 향상되었으며 F1-Score는 평균 30%, 12%, 7.5% 향상됨을 확인하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr