검색 : [ keyword: 문서 분류 ] (6)

LEXAI : 설명 가능한 인공지능을 이용한 법률 문서 유사도 분석 서비스

배주호, 박석

http://doi.org/10.5626/JOK.2020.47.11.1061

최근 딥러닝 학습의 성능이 향상됨에 따라, 전문적인 분야에서 이 방법을 사용하려는 연구가 다양해지고 있다. 유사한 논리적 의미를 가진 법률 문서의 검색은 법률 분야에서 매우 중요한 부분이지만, 관련 분야의 전문적인 지식을 요구하기 때문에 전문가 시스템을 사용한 서비스에서 벗어나기 어려운 실정이다. 또한, 전문가 시스템을 구성하는 데는 전문 인력의 비용이 과다하게 발생하므로 자동화된 유사 법률 문서 검색환경을 구축하기에 어려운 점이 있다. 기존의 유사 문서 검색 서비스가 전문가 시스템과 통계적 시스템에 기반하는 환경을 제공하는데 비하여, 제안하는 방법은 분류 작업을 위한 뉴럴 네트워크를 학습하고 이를 사용하는 방법을 채택하였다. 우리는 설명 가능한 뉴럴 네트워크를 이용하여 의미적 유사도가 높은 법률 문서간의 검색을 제공하는 데이터베이스 시스템 구조를 제안하였다. 이러한 제안 기법의 특징은 유사 문서들 간의 의미적 관련성에 대한 시각적 유사도 평가 방법을 마련하고 이를 검증하는 성과를 보여준다.

문서 분류를 위한 신경망 모델에 적합한 텍스트 전처리와 워드 임베딩의 조합

김영수, 이승우

http://doi.org/10.5626/JOK.2018.45.7.690

최근 문서 분류를 해결하는데 신경망 모델과 함께 워드 임베딩을 주로 사용한다. 연구자들은 성능을 높이기 위해 새로운 신경망 모델을 디자인하거나 모델 파라미터를 최적화하는데 시간을 많이 할애한다. 하지만, 많은 연구들은 특별한 이유 없이 특정한 워드 임베딩 모델을 사용하고 전처리에 대한 자세한 설명을 하지 않는 점과 같이 전처리와 워드 임베딩에 대해서는 그다지 신경을 쓰고 있지 않다. 본 연구는 성능을 향상시키는 추가적인 요소로 적합한 전처리와 워드 임베딩 조합을 찾는 것임을 말하고자 한다. 실험은 이들의 가능한 조합들을 비교실험하는 것과 제로/랜덤 패딩, 미세 조정에 의한 워드 임베딩 재학습 여부도 같이 실험한다. 또한, 사전에 학습한 워드 임베딩 모델들과 함께 평균, 랜덤, 학습 데이터로 학습한 임베딩들도 같이 사용한다. OOV(Out of Vocabulary)단어 통계를 기준으로 실험한 결과로부터 위와 같은 실험들의 필요성과 전처리와 워드 임베딩의 최적의 조합을 제시한다.

문서 분류의 개선을 위한 단어-문자 혼합 신경망 모델

홍대영, 심규석

http://doi.org/10.5626/JOK.2017.44.12.1290

문서의 텍스트를 바탕으로 각 문서가 속한 분류를 찾아내는 문서 분류는 자연어 처리의 기본 분야 중 하나로 주제 분류, 감정 분류 등 다양한 분야에 이용될 수 있다. 문서를 분류하기 위한 신경망 모델은 크게 단어를 기본 단위로 다루는 단어 수준 모델과 문자를 기본 단위로 다루는 문자 수준 모델로 나누어진다. 본 논문에서는 문서를 분류하는 신경망 모델의 성능을 향상시키기 위하여 문자 수준과 단어 수준의 모델을 혼합한 신경망 모델을 제안한다. 제안하는 모델은 각 단어에 대하여 문자 수준의 신경망 모델로 인코딩한 정보와 단어들의 정보를 저장하고 있는 단어 임베딩 행렬의 정보를 결합하여 각 단어에 대한 특징 벡터를 만든다. 추출된 단어들에 대한 특징 벡터를 바탕으로, 주의(attention) 메커니즘을 이용한 순환 신경망을 단어 수준과 문장 수준에 각각 적용하는 계층적 신경망 구조를 통해 문서를 분류한다. 제안한 모델에 대하여 실생활 데이터를 바탕으로 한 실험으로 효용성을 검증한다.

딥 러닝을 이용한 버그 담당자 자동 배정 연구

이선로, 김혜민, 이찬근, 이기성

http://doi.org/10.5626/JOK.2017.44.11.1156

기존의 버그 담당자 자동 배정 연구들은 대부분 기계학습 알고리즘을 기반으로 예측 시스템을 구축하는 방식이었다. 따라서, 고성능의 기계학습 모델을 적용하는 것이 담당자 자동 배정 시스템 성능의 핵심이 된다고 할 수 있으며 관련 연구에서는 높은 성능을 보이는 SVM, Naive Bayes 등의 기계학습 모델들이 주로 사용되고 있다. 본 논문에서는 기계학습 분야에서 최근 좋은 성능을 보이고 있는 딥 러닝을 버그 담당자 자동 배정에 적용하고 그 성능을 평가한다. 실험 결과, 딥 러닝 기반 Bug Triage 시스템이 활성 개발자 대상 실험에서 48%의 정확도를 달성했으며 이는 기존의 기계학습 대비 최대 69%향상된 결과이다.

낚시성 인터넷 신문기사 검출을 위한 특징 추출

허성완, 손경아

http://doi.org/

스마트 기기의 발달로 많은 사람들이 인터넷 신문기사를 이용하고 있다. 하지만 인터넷 언론사 간의 치열한 경쟁으로 조회수를 올리기 위한 낚시성 기사가 범람하고 있다. 낚시성 신문기사는 제목을 통해 올바른 기사의 줄거리가 제공되지 않았을 뿐만 아니라, 독자로 하여금 잘못된 내용을 떠올리게 한다. 낚시성 신문기사는 핵심에서 벗어난 유명인사 인용, 애매한 문장의 마무리, 제목과 내용의 불일치 등의 특징을 갖는다. 본 논문에서는 이러한 낚시성 기사를 분류하기 위한 특징을 추출하고 성능을 검증해 본다. 기사에 달린 댓글의 키워드를 활용하여 대용량 학습데이터를 생성하고 이를 기반으로 다섯 가지 분류 특징을 추출하였다. 추출된 특징들은 서포트 벡터 머신 분류기를 이용한 실험에서 92%의 정확도를 보여 낚시성 인터넷 신문기사를 분류하는데 적합하다고 판단된다. 뿐만 아니라 제목과 본문의 일관성을 측정하기 위한 전처리 방법으로 고안한 선택적 바이그램 모델은 낚시성 인터넷 신문기사 분류 외에도 일반적인 단문 분석을 위한 전처리 방법으로 유용할 것으로 기대된다.

비격식 문서 분류 성능 개선을 위한 LDA 단어 분포 기반의 자질 확장

이호경, 양선, 고영중

http://doi.org/

트위터, 페이스북, 온라인 고객 리뷰 등은 신문기사처럼 정제된 글이 아닌 자유롭게 기술되는 비격식(informal) 텍스트 문서에 속한다. 이러한 비격식 문서에서 일관된 규칙이나 패턴을 찾는 일은 격식(formal) 문서 경우에 비해 용이하지 않기 때문에, 비격식 문서 분석을 위해서는 성능 개선을 위한 추가적인 접근 방법 필요다고 판단된다. 본 연구에서는 대표적 비격식 문서인 트위터 데이터를 열 가지 카테고리로 분류함에 있어 LDA(Latent Dirichlet allocation) 단어 분포를 사용하여 자질(feature)을 교정하고 확장한다. 토픽별로 상위에 랭크된 단어 자질들을 기반으로 다른 단어 자질들을 분해 및 병합하는 방식으로 유용한 자질 집합을 반복적으로 확장시킨다. 이렇게 생성된 자질로 문서 분류를 수행한 결과 자질 확장 이전에 비해 마이크로 평균 F1-score 7.11%p의 성능 개선 효과를 확인할 수 있었다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr