문장 분석과 단어 삭제를 통한 한국어 문장 축약 코퍼스 구축 


48권  2호, pp. 183-194, 2월  2021
10.5626/JOK.2021.48.2.183


PDF

  요약

딥 러닝 기반의 문장 축약 시스템을 개발하기 위해서는 원 문장-축약 문장의 쌍으로 구성된 병렬 코퍼스가 필요하다. 본 연구에서 우리는 문장 축약 알고리즘을 제안한다. 축약 알고리즘의 기본 접근방법은 압축 문장의 문법성을 유지하면서 입력 문장의 구문 의존 트리로부터 일부 노드를 지우는 것이다. 알고리즘은 문장의 구문 트리 제약 조건과 의미적 필수 정보를 이용하여 삭제할 노드를 선택한다. 신문기사의 첫 문장과 헤드라인에 알고리즘을 적용하여 약 140,000 쌍의 원 문장-축약 문장의 코퍼스를 구축할 수 있었다. 한국어 축약 코퍼스의 품질을 평가하기 위하여 가독성과 정보전달력에 대해 수동 평가를 수행한 결과 5점 만점 중 가독성 4.75, 정보전달력 4.53을 받았다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

G. Lee, Y. Park, K. J. Lee, "Building a Korean Sentence-Compression Corpus by Analyzing Sentences and Deleting Words," Journal of KIISE, JOK, vol. 48, no. 2, pp. 183-194, 2021. DOI: 10.5626/JOK.2021.48.2.183.


[ACM Style]

GyoungHo Lee, Yo-Han Park, and Kong Joo Lee. 2021. Building a Korean Sentence-Compression Corpus by Analyzing Sentences and Deleting Words. Journal of KIISE, JOK, 48, 2, (2021), 183-194. DOI: 10.5626/JOK.2021.48.2.183.


[KCI Style]

이경호, 박요한, 이공주, "문장 분석과 단어 삭제를 통한 한국어 문장 축약 코퍼스 구축," 한국정보과학회 논문지, 제48권, 제2호, 183~194쪽, 2021. DOI: 10.5626/JOK.2021.48.2.183.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr