검색 : [ author: Yeohoon Yoon ] (1)

CBCA 준거 분류에서의 BERT 기반 모델 성능 비교

신준호, 신정수, 조은경, 윤여훈, 정재희

http://doi.org/10.5626/JOK.2022.49.9.727

아동 성범죄의 경우 피해자의 진술은 사건의 유, 무죄를 판별함에 있어서 매우 중요하게 작용하기 때문에, 대검찰청에서는 피해자 진술 분석 기법인 Criteria-Based Content Analysis (CBCA)에 따라, 진술 내용을 총 19개의 준거로 분류하여 진술 전체의 신빙성을 판단한다. 그러나 이는 진술분석관의 주관적 의견에 따라 준거 분류가 상이할 수 있다. 따라서 본 논문에서는 BERT와 RoBERTa를 사용하여 객관적 분류 모델을 제시하기 위하여 크게 두가지 분류 방식을 적용하여 비교 분석하였다. 두 가지 방법은 전체 준거를 동시에 분류하는 방식과 4개의 그룹으로 나누어 1차 분류 후 해당 그룹 내에서 어떠한 준거인지 2차 분류하는 방식으로 구성하였다. 진술 문장을 CBCA의 중복 분류되는 준거를 제외한 16개 준거로 분류하고, 여러 사전 학습 모델을 사용한 비교 분석을 수행하였다. 분류 결과, 전자의 분류 방식이 총 16개의 준거 중 13개의 준거에서 후자의 분류 방식보다 성능이 높았으며, 학습 데이터의 수가 상대적으로 부족한 3개의 준거에서 후자의 방식이 효과적임을 확인하였다. 또한 RoBERTa 기반 모델이 16개의 준거 중 15개의 준거에서 BERT 기반 모델보다 성능이 높았으며, 나머지 1개의 준거에서는 한국어 대화형 구어체만으로 사전학습한 BERT 모델만이 유일하게 분류하였다. 이는 대화형 구어체 데이터로 사전 학습된 모델이 아동의 진술 문장을 분류함에 있어서 효과적임을 알 수 있다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr