검색 : [ author: Hyopil Shin ] (6)

키워드와 문장 임베딩을 활용한 조항별 분류모델 기반 계약서 적격성 검증

이상아, 김석기, 김은진, 강민지, 신효필

http://doi.org/10.5626/JOK.2022.49.10.848

최근에는 계약서를 포함한 법률 문서들을 대량으로, 빠르고 정확하게 처리하기 위하여 인공지능을 활용한 자동화된 분석 방법이 요구된다. 계약서는 그 안에 필수적인 조항들이 모두 포함되었는지, 어느 한 쪽에 불리한 조항은 없는지 등을 확인하여 적격성을 검증할 수 있다. 이때 계약서를 이루는 조항들은 계약서의 종류와 관계없이 매우 정형적이고 반복적인 경우가 많다. 본 연구에서는 이러한 성격을 이용하여 계약서 내 조항별 분류 모델을 구축하였으며, 계약서의 관습적인 요구사항에 기반하여 구성한 키워드 임베딩을 구축하고 이를 BERT 임베딩과 결합하여 사용한다. 이때 BERT 모델은 한국어 사전학습모델을 법률 도메인 문서를 이용하여 미세 조정한 것이다. 각 조항의 분류 결과는 정확도 90.57과 90.64, F1 점수 93.27과 93.26으로 우수한 수준이며, 이렇게 계약서를 이루는 각 조항이 어떤 필수조항에 해당되는지의 예측 결과를 통해 계약서의 적격성을 검증할 수 있다.

감정 분석을 위한 BERT 사전학습모델과 추가 자질 모델의 결합

이상아, 신효필

http://doi.org/10.5626/JOK.2021.48.7.815

대규모 코퍼스에 기반한 사전학습모델인 BERT 모델은 언어 모델링을 통해 텍스트 내의 다양한 언어 정보를 학습할 수 있다고 알려져 있다. 여기에는 별도의 언어 자질이 요구되지 않으나, 몇몇 연구에서 특정한 언어 지식을 추가 반영한 BERT 기반 모델이 해당 지식과 관련된 자연어처리 문제에서 더 높은 성능을 보고하였다. 본 연구에서는 감정 분석 성능을 높이기 위한 방법으로 한국어 감정 사전에 주석된 감정 극성과 강도 값을 이용해 감정 자질 임베딩을 구성하고 이를 보편적 목적의 BERT 모델과 결합하는 외적 결합과 지식 증류 방식을 제안한다. 감정 자질 모델은 작은 스케일의 BERT 모델을 적은 스텝 수로 학습하여 소요 시간과 비용을 줄이고자 했으며, 외적 결합된 모델들은 영화평 분류와 악플 탐지문제에서 사전학습모델의 단독 성능보다 향상된 결과를 보였다. 또한 본 연구는 기존의 BERT 모델 구조에 추가된 감정 자질이 언어 모델링 및 감정 분석의 성능을 개선시킨다는 것을 관찰하였다.

소규모 데이터 기반 한국어 버트 모델

이상아, 장한솔, 백연미, 박수지, 신효필

http://doi.org/10.5626/JOK.2020.47.7.682

최근 자연어처리에서 문장 단위의 임베딩을 위한 모델들은 거대한 말뭉치와 파라미터를 이용하기 때문에 큰 하드웨어와 데이터를 요구하고 학습하는 데 시간이 오래 걸린다는 단점을 갖는다. 따라서 규모가 크지 않더라도 학습 데이터를 경제적으로 활용하면서 필적할만한 성능을 가지는 모델의 필요성이 제기된다. 본 연구는 음절 단위의 한국어 사전, 자소 단위의 한국어 사전을 구축하고 자소 단위의 학습과 양방향 WordPiece 토크나이저를 새롭게 소개하였다. 그 결과 기존 모델의 1/10 사이즈의 학습 데이터를 이용하고 적절한 크기의 사전을 사용해 더 적은 파라미터로 계산량은 줄고 성능은 비슷한 KR-BERT 모델을 구현할 수 있었다. 이로써 한국어와 같이 고유의 문자 체계를 가지고 형태론적으로 복잡하며 자원이 적은 언어에 대해 모델을 구축할 때는 해당 언어에 특화된 언어학적 현상을 반영해야 한다는 것을 확인하였다.

순차 모형과 언어 자질 벡터를 이용한 한국어 토론 데이터의 선형 논증 구조 분석

이상아, 신효필

http://doi.org/10.5626/JOK.2018.45.12.1292

토론 데이터의 논증 구조 분석을 위한 기존의 연구는 문서를 이루는 문장들 간의 담화 관계와 핵성에 기반한 트리 구조 형태의 논증 구조를 제안한 것이 대부분이다. 이 때 상대적 관계들을 조합하여 한 편의 문서에 대응하는 논증 구조를 구성하는 과정에서 관계 간의 불일치가 발생할 위험이 있다. 본 연구에서는 문서가 다루는 주제 자체와 문장 간의 관계를 상정하고 이를 논증상의 기능에 따라 유형화한 논증 구조 프레임을 제안한다. 또한 각 문장에 해당하는 논증 유형을 문서 단위로 순차 모형에 적용시켜, 논증 구조의 자동 분석 과정에서 문서 내 맥락 정보를 이용할 수 있도록 한다. 형태소의 bag-of-words와 단어 임베딩, 언어 자질을 각각 이용하여 문장들을 벡터화하고, 이에 순차 모델링을 비롯한 기계학습 방식을 적용하여 논증 유형의 예측 결과를 관찰하였다. 이 때 언어 자질을 이용하여 벡터화한 문장들에 순차모형을 적용한 경우 F1-score가 0.68로 가장 높게 나타났다.

시간차 학습을 이용한 단어 감정 값 측정법 연구

김영삼, 신효필

http://doi.org/10.5626/JOK.2018.45.12.1287

시간차(temporal-difference) 학습은 강화학습의 핵심적인 알고리즘으로 마르코프 체인 모형에서 상태의 가치를 실시간으로 측정하는데 유용한 방법론을 제공한다. 이 방법론에서 활용되는 마르코프 모형은 감쇄 비(discount factor)를 사용하여 보상이 주어지는 시점과 가까운 상태일수록 보상 값에 대해 더 많은 가중치를 주게 된다. 본 논문에서는 텍스트의 어떤 어휘가 갖는 감정 값을 측정하는데 있어 시간차학습이 기존의 베이즈 확률을 이용하는 방법보다 상대적으로 유용함을 보이고자 한다. 이는 시간차 학습이 본질적으로 점증적(incremental) 처리이며 감쇄 비를 통해 부여할 감정 값의 가중치를 조절할 수 있기 때문이다. 본 논문은 영화평 자료를 이용하여 이 방법의 효과를 간접적인 방법과 직접적인 방법 모두에서 검증하였으며, 이 방법이 대용량의 자료에 적용 가능함(scalable)을 보이기 위해 비동기 병렬처리 방식으로도 이 방법의 효과가 유지됨을 검증하였다.

Automatic Product Review Helpfulness Estimation based on Review Information Types

Munhyong Kim, Hyopil Shin

http://doi.org/

온라인 상품평 양의 비약적 증가로 인해 소비자들이 유용한 상품평 만을 찾는 것이 거의 불가능에 가까워졌다. 이 연구는 온라인 상품평의 유용성을 자동적으로 평가할 수 있는 토대를 마련하는데 그 목적이 있다. 이를 위해 상품평을 이루는 문장에 담긴 정보를 설명하는 그 대상에 따라 종류를 나눌 수 있도록 상품평 정보 분류를(Review Information Types) 제안하고, 각 정보 분류 내에서 문장의 주제 벡터 변환 방법과 군집화를 이용하여 더 세부적으로 각 문장이 어떤 정보를 제공하는지를 추출함으로써 각 상품평이 제공하는 정보에 따라 그 유용성을 평가하는 방법을 제안한다. 이러한 시도는 잠재적 소비자들이 상품평에서 상품 자체의 특성이나 상품평 제공자의 경험과 같은 정보를 배송과 같은 정보보다 중요하게 생각할 것이라는 가정에서 시작했다. 자동 상품평 유용성 평가 실험을 통해 본 연구에서 제시하는 방법이 기존의 비교 가능한 연구들에 비해 더 효과적인 것을 밝혀냈다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr