검색 : [ author: 장영진 ] (6)

역번역 프로세스를 통한 문서 기반 대화 데이터셋 노이즈 축소 방법

김담린, 김보은, 장영진, 김학수

http://doi.org/10.5626/JOK.2024.51.1.34

문서 기반 대화는 주어진 문서를 기반으로 두 명 이상으로 구성된 화자가 주고받는 대화를 말한다. 문서 기반 대화 시스템은 대화의 마지막 발화에 대한 응답을 생성하는 작업으로, 다양한 영어권 문서 기반 대화 데이터셋이 공개되면서 활발히 연구되고 있다. 한국어의 경우 한국어 문서 기반 대화 데이터셋의 부재로 인해 활발한 연구가 이루어지지 않고 있었으나, 최근 영어 문서 기반 대화 데이터셋 Doc2dial을 한국어로 번역한 KoDoc2dial이 공개되었다. 하지만 KoDoc2Dial은 번역 과정에서 발생한 노이즈를 그대로 포함하고 있다. 노이즈가 포함된 데이터셋은 학습과 시스템 일관성 측면에 부정적인 영향을 끼칠 수 있기 때문에 KoDoc2Dial 또한 존재하는 노이즈를 줄이기 위한 노력이 필요하다. 따라서 본 논문에서는 역번역 프로세스를 이용한 필터링을 통해 KoDoc2Dial에 포함된 노이즈를 줄이기 위한 방법을 제안하고자 한다. 실험을 통해 본 논문에서 제안하는 방법이 필터링 적용 전과 비교하여 SacreBLEU 기준 약 3.6의 성능 향상이 있음을 보였다.

문법 정확도 평가(GAE): 기계 번역 모델의 정량화된 정성 평가

박도준, 장영진, 김학수

http://doi.org/10.5626/JOK.2022.49.7.514

자연어 생성은 시스템의 계산 결과를 사람의 언어로 표현하는 작업을 의미한다. 이와 같은 자연어 생성 모델은 정량 평가만으로 생성된 문장의 품질을 대변할 수 없기 때문에 사람이 주관적인 기준에 따라 문장의 의미나 문법 점수를 매기는 정성 평가도 같이 사용하여 생성된 문장의 품질을 평가한다. 기존의 정성 평가는 주로 문법 적합도, 의미 적합도를 지표로 사용했으나, 평가자의 기준에 따라 큰 점수 편차가 발생하는 문제점이 존재했다. 따라서 본 논문에서는 구체적인 점수 기준을 제공해 줄 수 있는 문법정확도 평가(Grammar Accuracy Evaluation, GAE) 방법을 제안한다. 본 논문에서는 기계 번역 모델의 번역 품질을 BLEU와 GAE를 통해 분석하였다. 분석 결과 BLEU 지표로 측정된 점수가 모델의 절대적인 성능을 대변하지 않음을 확인하였으며, GAE 지표를 통해 동의어로 대체된 어휘 및 문장 구조의 변화를 오답으로 평가한 BLEU 지표의 단점이 보완됨을 확인하였다.

2단계 학습을 통한 Span Matrix 기반 정답 후보군 탐지 모델

김보은, 장영진, 김학수

http://doi.org/10.5626/JOK.2021.48.5.539

데이터 자동 구축이란 알고리즘이나 심층 신경망 등을 통해 데이터를 자동으로 구축하는 기술을 의미한다. 본 논문에서 목표로 하는 질의응답 데이터 자동 구축 시스템은 질문 생성 모델을 통해 주로 연구되었으며, 이는 주어진 단락과 관련된 질문을 생성하는 모델을 의미한다. 기존에는 질문 생성 모델에 단락과 정답 후보를 입력하여 이와 관련된 질문을 생성했으며, 질문 생성 모델에 입력되는 정답 후보는 규칙 기반 방법이나 심층 신경망을 이용한 방법 등을 통해 탐지되었다. 본 논문에서는 질문 생성의 하위 작업인 정답 탐지가 질문 생성에 큰 영향을 줄 것으로 판단했고, Span Matrix를 이용한 정답 후보군 탐지 모델 및 2단계 학습 방법을 제안했다. 다양한 정답 후보 추출 방법을 통해 생성한 질문이 질의응답 시스템에 어떤 영향을 주는지 알아보기 위한 실험을 진행했다. 제안 모델은 기존 모델에 비해 많은 수의 정답을 추출했으며, 개체명 데이터셋을 활용함으로써 학습 과정의 노이즈를 보완했다. 이를 통해 제안 모델이 추출한 정답 후보로 생성한 질의응답 데이터가 질의응답 시스템의 성능에 가장 크게 기여하는 것을 확인했다.

독소 조항 분류를 위한 딥러닝 기반 텍스트 분류 모델

최기현, 장영진, 김학수, 김관우

http://doi.org/10.5626/JOK.2020.47.11.1054

여러 기업들은 과제를 수행하기에 앞서 계약서를 바탕으로 계약을 체결한다. 하지만 계약을 체결하기 전에 계약서 내의 독소 조항을 발견하지 못하고 계약을 진행하게 될 경우 여러 문제가 발생할 수 있다. 이를 방지하기 위하여 전문가를 통해 계약서를 검토하는 과정이 수행되지만 많은 시간과 비용을 요구한다. 만약 계약서의 사전 검토를 통해 독소 조항을 판별 할 수 있는 시스템이 존재한다면, 계약서를 검토하는 과정에서 발생하는 높은 비용과 시간을 절약할 수 있다. 따라서 본 논문에서는 계약서 내의 각 단락을 입력으로 하여 독소 조항 여부를 분류하는 텍스트 분류 모델을 제안한다. 제안 모델의 분류 성능을 높이기 위하여 단락 내 문장과 분류할 클래스 사이의 유사도 정보를 바탕으로 문장 별 중요도를 계산하고 이를 각 문장에 반영하여 분류를 수행한다. 제안 모델은 실제 계약서 데이터를 사용한 실험에서 F1 점수 84.51%p의 성능을 보였으며 기존 텍스트 분류 모델과의 성능 비교를 위해 WOS-5736 데이터셋을 이용한 실험에서 F1 점수 93.64%p로 가장 높은 성능을 보였다.

다중 작업 학습을 통한 문장 유사도 기반 단락 재순위화 방법

장영진, 이현구, 왕지현, 이충희, 김학수

http://doi.org/10.5626/JOK.2020.47.4.416

기계독해 시스템은 컴퓨터가 주어진 단락을 이해하고 질문에 대한 답변을 하는 질의응답 시스템이다. 최근 심층 신경망의 발전으로 기계독해 시스템의 연구가 활발해지면서 주어진 문서가 아닌 검색모델의 결과에서 정답을 찾는 연구(오픈 도메인 기계독해 시스템)가 진행되고 있다. 하지만 오픈 기계독해 시스템은 검색 모델이 정답을 포함하는 단락을 검색해오지 못할 경우, 질문에 대한 답을 할 수 없다. 즉, 오픈 도메인 기계독해 시스템의 성능은 검색 모델의 성능에 종속된다. 따라서 오픈 도메인 기계독해 시스템이 높은 성능을 기록하기 위해서는 높은 성능의 검색 모델이 요구된다. 검색 모델의 성능을 높이기 위한 기존 연구는 질의 확장과 재순위화 등을 통해 연구되었으며, 본 논문에서는 심층 신경망을 이용한 재순위화 방법을 제안한다. 제안 모델은 다중 작업 학습 기반 문장 유사도 측정을 통해 검색 결과(단락)를 재순위화하고, 자체 구축한 58,980 쌍의 기계독해 데이터의 실험 결과로 기존 검색 모델 성능과 비교하여 약 8%p(Precision 1 기준)의 성능 향상을 보였다.

자모 단위 합성곱 신경망 기반 맞춤법 오류가 포함된 자주 묻는 질문 자동 분류

장영진, 김학수, 강동호, 김세빈, 장현기

http://doi.org/10.5626/JOK.2019.46.6.563

웹이나 모바일 사용자는 홈페이지에 구축된 자주 묻는 질문 시스템(Frequently Asked Question: FAQ, 이하 FAQ)을 이용하여 원하는 정보를 얻는다. 기존 FAQ 시스템은 검색 모델을 기반으로 입력과 가장 유사하다고 판단되는 질의응답 후보를 사용자에게 보여준다. 하지만 검색 모델은 문서 색인에 의존하기 때문에 입력 문장의 맞춤법 오류에 취약하다. 따라서 본 논문에서는 FAQ 시스템을 문장분류기에 적용하여 맞춤법 오류를 최소화하는 모델을 제안한다. 자모 단위 합성곱 신경망을 이용한 임베딩 계층을 통해 사용자 입력의 맞춤법 오류를 줄이고, 클래스 임베딩과 전방 전달 신경망을 적용하여 분류기의 성능을 높였다. 제안 모델은 457개와 769개의 FAQ 클래스 분류에 대한 실험 결과로 Micro F1 score 기준 각각 81.32%p, 61.11%p의 높은 성능을 보였으며, 모델 예측의 신뢰도를 평가하기 위해 sigmoid 함수를 이용하여 신뢰도를 수치화했다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr