위키피디아 기반 개체명 사전 반자동 구축 방법 


42권  11호, pp. 1397-1403, 11월  2015


PDF

  요약

개체명은 다양한 자연어처리 연구 및 서비스에 중요한 정보로 이용된다. 개체명 인식의 성능을 향상시키기 위한 여러 연구에서 개체명 사전을 이용한 자질이 개체명 인식 성능에 큰 영향을 준다는 것을 보이고 있다. 그러나 개체명 사전을 구축하는 것은 매우 시간 소모적이고, 인력 소모적인 작업이다. 이를 완화하기 위해서 본 논문에서는 개체명 사전을 반자동으로 구축하는 방법을 제안한다. 제안 시스템은 능동학습을 이용하여 위키피디아 분류정보로 구성된 가상 문서를 개체명 범주 당 하나씩 생성한다. 그리고 잘 알려진 정보검색 모델인 BM25를 이용하여 위키피디아 엔트리와 가상문서 사이의 유사도를 계산한다. 마지막으로 유사도를 바탕으로 각 위키피디아 엔트리를 개체명 범주로 분류한다. 서로 다른 3종류의 개체명 범주 집합에서 실험한 결과, 제안 시스템은 매크로 평균 F1-점수 0.9028, 마이크로 평균 F1-점수 0.9554이라는 높은 성능을 보였다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

Y. Song, S. Jeong, H. Kim, "A Semi-automatic Construction method of a Named Entity Dictionary Based on Wikipedia," Journal of KIISE, JOK, vol. 42, no. 11, pp. 1397-1403, 2015. DOI: .


[ACM Style]

Yeongkil Song, Seokwon Jeong, and Harksoo Kim. 2015. A Semi-automatic Construction method of a Named Entity Dictionary Based on Wikipedia. Journal of KIISE, JOK, 42, 11, (2015), 1397-1403. DOI: .


[KCI Style]

송영길, 정석원, 김학수, "위키피디아 기반 개체명 사전 반자동 구축 방법," 한국정보과학회 논문지, 제42권, 제11호, 1397~1403쪽, 2015. DOI: .


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr