검색 : [ author: Jong-kyu Seo ] (1)

계산속도 및 정확도의 적응적 제어가 가능한 다단계 문서 비교 시스템

서종규, 탁해성, 조환규

http://doi.org/

유사한 문서를 비교하는 방법으로는 지문법과 서열 정렬법이 널리 알려져 있다. 지문법은 계산속도가 빠른 대신 정확도가 떨어지며, 서열정렬법은 계산속도가 느린 대신 정확도가 높다. 다단계 정렬은 두 방법의 비중을 조절하여 문서 유사도를 비교할 수 있는 새로운 방법의 문서 유사도 측정 방법으로, 각 방법의 장점을 얻으면서 동시에 단점을 보완하도록 고안되었다. 특히 두 비교 방법의 비중을 “블록크기”라는 단일 변수를 이용하여 조절할 수 있도록 한 것이 제안 시스템의 핵심이다. 다단계 정렬은 문서를 일정한 길이의 블록으로 나누어 지문을 추출하고 블록간의 유사도를 계산한 다음 그 결과를 서열정렬법으로 다시 한 번 탐색하는 과정을 거친다. 이때 문서가 분할되는 과정에서 유사구간이 두 개 이상의 블록으로 나누어지는 현상이 발생하기도 한다. 이 논문에서는 다단계 정렬방법에 대해 설명하고, 유사도 비교 성능개선을 위한 단편화 제거 기법과 휴리스틱 비교법에 대해 설명하고 실험적으로 그 결과를 보인다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr