디지털 라이브러리[ 검색결과 ]
그래프 신경망을 이용한 삭제 기반 한국어 문장 축약
http://doi.org/10.5626/JOK.2022.49.1.32
문장 축약은 주어진 문장의 요지를 담은 짧고 간결한 글을 생성하는 것으로 주로 삭제 기반의 축약 연구가 많이 진행되었다. 삭제 기반의 축약은 문장에서 덜 중요한 부분을 제거하여 문장을 축약하는 것이다. 본 연구에서는 딥러닝 모델을 이용하여 삭제 기반의 한국어 문장 축약 모델을 구축한다. 각각의 단어가 삭제될 것인지 축약에 포함될 것인지 이진 분류하는 기본 모델을 구축하고 여기에 LSTM과 어텐션 레이어를 추가한 모델을 설계한다. 그래프 신경망은 그래프 구조에 딥러닝 방법을 적용한 모델로 본 연구에서는 문장의 구문 구조를 축약에 사용할 수 있도록 그래프 신경망을 도입하였다. 그래프 신경망 중 대표적인 모델인 그래프 합성곱 신경망을 이용하여 의존 트리를 인코딩하고, 인코딩된 트리의 각 노드를 문장 축약 모델의 입력으로 사용한다. 일반적인 그래프 합성곱 신경망은 무방향 그래프만을 다루기 때문에 문장 축약에서 의존 트리의 부모, 자식 노드를 구분하기 위하여 유향그래프 합성곱 신경망을 제안한다. 실험 결과 기본 모델에 그래프 신경망을 적용했을 때 문장 축약의 정확도가 향상되었다. 또한 부모, 자식 노드를 구분할 수 있는 유향그래프 합성곱 신경망이 그렇지 못한 그래프 합성곱 신경망에 비해 높은 F1 점수를 얻었다. 실험을 통해 의존 구문 트리 구조를 명시적으로 반영하였을 때, 문장 축약에 더 좋은 성능을 발휘할 수 있음을 확인하였다.
뉴럴-심볼릭 순위화 모델 기반 2단계 단락 재순위화 모델
http://doi.org/10.5626/JOK.2021.48.5.501
자연어 질의응답 시스템과 관련한 이전의 연구들은 주어진 질문과 단락으로부터 정확한 정답을 추출하는 문제에 초점을 맞추고 있다. 그러나, 기계독해에서 오픈 도메인 질의응답으로 문제를 확장하였을 때, 정답이 포함된 단락을 잘 찾는 것이 기계독해 못지않은 중요한 요소이다. DrQA에서는 초기 검색 단계를 포함하여 질의응답을 하였을 때 Exact Match@Top1 성능이 69.5%에서 27.1%로 하락했다고 평가하였다. 본 논문에서는 질의응답 시스템 성능 향상을 위해 2단계 단락 재순위화 모델을 제안한다. 2단계 단락 재순위화 모델은 심볼릭 순위화 모델과 뉴럴 순위화 모델의 결과를 통합하여 다시 재순위화하는 모델이다. 심볼릭 순위화 모델은 CatBoost 알고리즘과 질문과 단락 간의 자질을 기반으로 단락을 순위화 하고, 뉴럴 순위화 모델은 한국어 딥러닝 언어모델(KorBERT)을 사후학습하여 순위화하였다. 2단계 모델은 뉴럴 리그레션 모델에 기반하여 순위화하였다. 본 논문에서는 특징이 다른 순위화 모델을 결합하여 성능을 극대화하였고, 최종적으로 제안한 모델은 1,000건의 질문을 평가하였을 때 MRR 기준 85.8%과 BinaryRecall@Top1기준 82.2%의 성능을 보였고, 각 성능은 베이스라인 모델보다 17.3%(MRR), 22.3%(BR@Top1)이 향상되었다.
텍스트 채우기와 적대 신경망을 이용한 개체명 인식 데이터 확장
http://doi.org/10.5626/JOK.2021.48.4.462
자연 언어 처리에 딥러닝 모델이 적용되면서 딥러닝 모델을 구축하기 위해 많은 양의 데이터가 필요해졌다. 그러나 개체명 인식과 같이 레이블링된 학습 데이터 구축은 어려워 데이터 부족 문제가 발생한다. 이러한 데이터 부족 문제를 해결하기 위해 데이터 확장이 필요하다. 따라서 본 연구에서는 텍스트 채우기와 생성적 적대 신경망을 이용해 레이블링된 개체명 인식 데이터 확장모델을 제안한다. 제안한 모델은 개체명 정보를 변경하지 않고 부분 문장을 생성해 새로운 데이터를 생성할 수 있다. 제안한 모델은 다른 비교 모델들에 비해 자연스럽고 내용적 일관성이 있는 부분 문장을 생성할 수 있다. 또한 제안한 모델로 확장한 개체명 인식 데이터로 개체명 인식 모델을 학습할 경우 성능을 향상될 수 있음을 보였다.
문장 분석과 단어 삭제를 통한 한국어 문장 축약 코퍼스 구축
http://doi.org/10.5626/JOK.2021.48.2.183
딥 러닝 기반의 문장 축약 시스템을 개발하기 위해서는 원 문장-축약 문장의 쌍으로 구성된 병렬 코퍼스가 필요하다. 본 연구에서 우리는 문장 축약 알고리즘을 제안한다. 축약 알고리즘의 기본 접근방법은 압축 문장의 문법성을 유지하면서 입력 문장의 구문 의존 트리로부터 일부 노드를 지우는 것이다. 알고리즘은 문장의 구문 트리 제약 조건과 의미적 필수 정보를 이용하여 삭제할 노드를 선택한다. 신문기사의 첫 문장과 헤드라인에 알고리즘을 적용하여 약 140,000 쌍의 원 문장-축약 문장의 코퍼스를 구축할 수 있었다. 한국어 축약 코퍼스의 품질을 평가하기 위하여 가독성과 정보전달력에 대해 수동 평가를 수행한 결과 5점 만점 중 가독성 4.75, 정보전달력 4.53을 받았다.
트랜스포머와 BERT로 구현한 한국어 형태소 분석기의 성능 분석
http://doi.org/10.5626/JOK.2020.47.8.730
본 논문은 Transformer로 구현한 한국어 형태소 분석기를 다룬다. Transformer는 최근에 가장 널리 사용되는 sequence-to-sequence 모델 중 하나이다. Transformer는 인코더와 디코더로 구성되어 있는데 인코더는 원문을 고정된 크기의 벡터로 압축시키고 디코더는 이 벡터를 이용하여 형태소 분석 결과를 생성해 낸다. 본 논문에서는 또한 Transformer의 인코더를 BERT로 대체해 본다. BERT는 대용량의 학습데이터를 이용하여 미리 학습시켜 놓은 언어 표현 모델이다. 디코더에는 주의 메커니즘과 복사 메커니즘을 도입하였다. 인코더와 디코더에서의 처리 단위는 각각 어절 단위 WordPiece와 형태소 단위의 WordPiece를 사용하였다. 실험을 통해, BERT의 파라미터를 문제에 맞게 재조정했을 때의 성능이 Transformer를 임의의 값으로 초기화하여 사용했을 때에 비해 F1에서 2.9%의 성능 향상을 보임을 알 수 있었다. 또한 학습단계에서 충분히 학습되지 못한 WordPiece의 임베딩이 형태소 분석에 어떤 영향을 미치는지도 살펴보았다.
고차원 정보와 스택-포인터 네트워크를 이용한 한국어 의존 구문 파서
http://doi.org/10.5626/JOK.2019.46.7.636
구문 분석은 문장의 구조를 이해하며 구조적 중의성을 해결하는 것이다. 일반적으로 한국어는 어순 배열의 자유도가 높고 문장 성분의 생략이 빈번한 특성이 있기 때문에 의존 구문 분석을 기반으로 한 연구가 주를 이루었다. 스택-포인터 네트워크 모델은 의존 구문 파서에 맞게 포인터 네트워크 모델을 확장한 것이다. 스택-포인터 네트워크는 각 단어에서 의존소를 찾는 하향식 방식의 모델로 기존 모델의 장점을 유지하면서 각 단계에서 이미 파생된 트리 정보도 사용한다. 본 연구에서는 스택-포인터 네트워크 모델을 한국어에 맞게 적용해보고 이와 함께 고차원 정보를 이용해서 트리 정보에 반영해본다. 모델의 실험 결과는 고차원 정보로 형제 노드를 반영하였을 때 UAS 92.63%의 정확도를 얻었다.
영어 작문 자동채점에서 ConceptNet과 작문 프롬프트를 이용한 주제-이탈 문서의 자동 검출
본 연구에서는 미리 구축해 놓은 학습데이터 없이도 입력된 작문이 주어진 작문 주제에 적합한 내용인지 아닌지를 자동으로 판단할 수 있는 방법을 제안한다. ConceptNet은 다양한 종류의 문서에서 추출한 자연언어 문장들로부터 구축된 그래프 형태의 지식베이스이다. 본 연구에서는 작문 주제에 해당하는 작문 프롬프트(essay prompt)와 ConceptNet만을 이용하여 문서의 주제-이탈 여부를 판별하는 방법을 제안한다. ConceptNet에서 두 개념간의 최단 경로를 찾고 이에 대한 의미 유사도를 계산하는 방법을 제안한다. 이를 이용하여 작문 프롬프트와 수험생 작문 내용을 ConceptNet의 개념들로 매핑하고 이 개념들 사이의 의미 유사도를 계산하여 작문 프롬프트와 수험생 작문 사이의 주제 부합 여부를 판단한다. 8개의 작문 시험을 수행하여 얻은 수험생 작문 데이터에 대하여 평가를 수행한 결과 기존의 연구에 비해 좋은 성능을 얻을 수 있었다. ConceptNet을 활용하면 유의미한 단순 추론이 가능하기 때문에 본 연구에서 제안한 방법은 추론을 요하는 작문 문제에도 적용 가능함을 보였다.
영작문 자동채점 시스템 개발에서 학습데이터 부족 문제 해결을 위한 앙상블 기법 적용의 효과
일반적으로, 교사 학습 알고리즘이 적절히 학습되기 위해서는 레이블의 편향이 없는 충분한 양의 학습데이터가 필요하다. 그러나 영작문 자동채점 시스템 개발을 위한 충분하고 편향되지 않은 학습데이터를 수집하는 것은 어려운 일이다. 또한 영어 작문 평가의 경우, 전체적인 답안 수준에 대한 다면적인 평가가 이루어진다. 적고 편향되기 쉬운 학습데이터와 이를 이용한 여러 평가영역에 대한 학습모델을 생성해야하기 때문에, 이를 위한 적절한 기계학습 알고리즘을 결정하기 어렵다. 본 논문에서는 이러한 문제를 앙상블학습을 통해 완화할 수 있음을 실험에 통해 보이고자 한다. 실제 중, 고등학교 학생들을 대상으로 시행된 단문형 영작문 채점 결과를 학습데이터 개수와 편향성을 조절하여 실험하였다. 학습데이터의 개수 변화와 편향성 변화의 실험 결과, 에이다부스트 알고리즘을 적용한 결과를 투표로 결합한 앙상블 기법이 다른 알고리즘들 보다 전반적으로 더 나은 성능을 나타냄을 실험을 통해 나타내었다.
기계학습을 이용한 중등 수준의 단문형 영어 작문 자동 채점 시스템 구현
본 논문은 기계학습을 기반으로 하는 중등수준의 단문형 영어작문 자동채점시스템에 대해 제안한다. 본 논문에서는 기계학습을 이용한 영어 자동채점의 전반적인 수행 방법과 시스템의 구성 및 동작 방식, 채점자질의 고려사항에 대해 논한다. 학생 답안의 내용 완성도를 평가하기 위하여 문서의 내용을 요약한 “개념답안”을 제안하여 사용하였다. 본 연구에서는 여러 개의 기계학습 알고리즘을 사용하여 자동평가를 수행한다. 자동평가의 성능을 향상시키기 위해 여러 개의 기계학습 알고리즘의 결과를 최적으로 결합하여 하나의 최종 결과를 도출할 수 있는 “최적조합” 결정과정을 제안한다. 실제 학생들의 작문 데이터를 이용하여 시스템을 구축하고 자동채점 시스템의 성능 평가를 수행하였다.