디지털 라이브러리[ 검색결과 ]
생략어 복원과 의존구문분석을 활용한 한국어 지식그래프 구축 방안
http://doi.org/10.5626/JOK.2024.51.8.736
본 연구는 생략어 복원, 의존구문분석, 그리고 ChatGPT를 활용하여 한국어 지식그래프 구축을 위한 새로운 접근 방안을 제안한다. 한국어 언어적 특성상 발생하는 성능 제약에 대한 해결방안으로 생략 어 복원과 의존구문분석을 결합한 프롬프트 엔지니어링을 적용하였다. 본 연구에서 제안하는 'Ko-Triple Extraction' 과정을 통해 문장에서 생략된 정보를 복원하고 의존 구조를 분석하여 정교하고 정확한 트리 플 구조를 추출하였다. 연구 결과, 본 연구에서 제안한 방법은 한국어 처리의 효율성과 정확성을 크게 향 상시켰으며, 트리플의 적합성을 평가하여 유효성을 검증하였다. 향후 연구에서 'Ko-Triple Extraction'을 다양한 산업 분야에 적용하고, 지식 그래프의 확장 및 연결성을 통해 실질적인 비즈니스 인사이트를 도출 하고자 한다. 본 연구는 한국어 텍스트 처리를 위한 기반 연구로서의 의의를 가지며, 분야에서의 한국어 활용도를 높이는 데 중요한 기여를 할 것으로 기대된다.
문형 정보를 이용한 규칙 기반 한국어 의존구문분석
http://doi.org/10.5626/JOK.2020.47.5.488
본 논문에서 제안하는 구문분석기는 문장에서 나오는 모든 형태소 분석 후보에 의존관계를 부여하는 광범위 의존구문분석기이다. 중의성이 발생할 수 있는 문장에 대해 나오는 모든 후보 구문분석 트리를 출력하며 규칙을 통해 순위화를 진행한다. agenda mechanism을 이용한 차트 파싱기법으로 지배-의존관계를 형성하고 입력 문장으로부터 4단계의 구문분석과정을 통하여 후보트리를 생성한다. 또한 문형 정보 말뭉치의 적절한 사용을 위해 이전 연구의 한계점을 극복한 규칙과 알고리즘을 구현하고 문형 정보를 통해 후보 구문분석 트리의 순위화를 강화하였다. 뿐만 아니라 순위화가 어려운 [명사-관형사구] 자질에 대해 문형 정보를 사용하여 순위화를 강화하였다. 그 결과, 1순위의 구문 분석 트리에 대한 UAS(unlabeled attachment score)가 0.74%p 향상되었고, 후보트리에 대한 평균 정답 순위는 28.1%의 성능향상을 보였다. 또한 최고성능은 UAS 94.02%를 보였다.
Self-Attention 지배소 인식 모델을 이용한 어절 단위 한국어 의존 구문분석
http://doi.org/10.5626/JOK.2019.46.1.22
의존 구문분석은 문장의 구조적 중의성을 해소하는 문제로, 최근 다양한 딥러닝 기술이 적용되어 높은 성능을 보이고 있다. 본 논문은 딥러닝을 이용한 의존구문분석을 크게 3가지 단계로 구분하여 살펴보았다. 첫 번째는 의존 구문분석의 단위가 되는 어절에 대한 벡터 표현 단계, 두 번째는 각 어절의 주위 어절 정보를 반영하는 문맥 반영 단계, 마지막은 문맥 반영된 어절 정보에 기반한 지배소 및 의존관계 인식 단계이다. 본 논문에서는 어절 표현 방법으로 CNN 모델에서 많이 사용하는 max-pooling 방법을 제안하고, 문맥반영을 위하여 LSTM, GRU보다 적은 계산량을 가지는 Minimal-RNN Unit을 적용하였다. 마지막으로 지배소 인식을 위하여 각 어절 사이의 상대 거리 임베딩을 반영한 Self-Attention 지배소 인식 모델을 제안하고, 의존관계 레이블 인식을 위하여 지배소 인식 모델과 동시에 학습을 수행하는 multi-task learning을 적용하였다. 평가를 위하여 세종계획 구구조 구문분석 말뭉치를 TTA 표준 의존 구조 가이드라인에 따라 변환하였고, 실험결과 제안 모델이 UAS 93.38%, LAS 90.42%의 구문분석 정확도를 보였다.