디지털 라이브러리[ 검색결과 ]
다양한 도메인 변화에 강건한 한국어 표 기계독해
http://doi.org/10.5626/JOK.2023.50.12.1102
표 데이터는 일반적인 텍스트 데이터와 다르게 구조적인 특장점으로 정보를 압축해 표현할 수 있다. 이는 표가 다양한 도메인에서 활용되는 것으로 이어지며, 기계독해 영역에서의 표 기계독해 능력이 차지하는 비중은 점점 커지고 있다. 하지만 도메인마다 표의 구조와 요구되는 지식이 달라 언어 모델을 단일 도메인으로 학습했을 때 다른 도메인에서의 모델의 평가 성능이 하락해 일반화 성능이 낮게 나타날 가능성이 크다. 이를 극복하기 위해서는 다양한 도메인의 데이터셋 구축이 우선이 되어야 하며, 단순 사전학습한 모델이 아닌 다양한 기법을 적용하는 것이 중요하다. 본 연구에서는 도메인 일반화 성능을 높이기 위해 도메인 간 불변하는 언어적 특성(Invariant-feature)을 학습하는 언어 모델을 설계한다. 각 도메인별 평가 데이터셋에서의 성능을 높이기 위해서 적대적 학습을 이용하는 방법과 표 데이터에 특화된 임베딩 레이어와 트랜스포머 레이어를 추가하는 모델의 구조를 변형하는 방법을 적용하였다. 적대적 학습을 적용했을 때는 표와 관련된 특화된 임베딩을 추가하지 않는 구조의 모델에서 성능이 향상되는 것을 확인했으며, 표에 특화된 트랜스포머 레이어를 추가하고 추가된 레이어가 표에 특화된 임베딩을 추가로 입력받도록 했을 때, 모든 도메인의 데이터에서 가장 향상된 성능을 보였다.
일반 상식 기반 기계 독해를 위한 Type-specific 다중 헤드 공유 인코더 모델
http://doi.org/10.5626/JOK.2023.50.5.376
기계 독해는 주어진 컨텍스트를 기반으로 다양한 문제를 해결함으로써 기계의 자연어 이해를 평가할 수 있도록 도입된 태스크이다. 기계의 자연어 이해 평가를 위해서는 주어진 맥락을 완전히 이해한 상태에서 상식적인 추론이 가능해야 한다. 이러한 추론이 가능하도록 본 연구에서는 일반 상식 기반 기계 독해를 위한 멀티-태스크 학습 방법과 모델을 제안한다. 연구의 기여는 다음과 같이 요약된다: 1) 일반 상식 기반 기계 독해 기술 학습을 위한 태스크 유형별 데이터셋 구성 방법을 제안한다. 2) 상식 학습이 가능한 Type-specific 다중 헤드 공유 인코더 모델을 포함해 멀티-태스크 학습 방법과 배치 샘플링 기법을 제안한다. 3) 제안된 방법을 CosmosQA데이터셋에 평가했을 때 기존 베이스라인 모델보다 2.38% 향상된 성능을 보인다.
학습 가능한 재순위화 및 응답 필터링 모델을 적용한 오픈 도메인 질의응답 시스템의 성능 향상
http://doi.org/10.5626/JOK.2023.50.3.273
딥러닝 기술이 자연어처리에 적용되면서, 사용자 질문에 대상 단락을 미리 준비하지 않은 상황에서도 정답을 찾을 수 있는 오픈 도메인 질의응답에 대한 연구가 활발히 진행되고 있다. 그러나 기존 연구는 키워드 기반 정보 검색을 사용하여 의미론적 매칭에 한계가 존재한다. 이를 보완하기 위해 딥러닝 기반 정보 검색 연구가 진행되고 있으나 실증적으로 실 시스템에 적용한 국내 연구는 아직 많지는 않은 상황이다. 이에 본 논문에서는 한국어 오픈 도메인 질의응답 시스템의 성능을 높이기 위해 2단계 성능 고도화 방법을 제안하였다. 제안된 방법은 검색엔진과 기계독해 모델이 결합된 형태의 베이스라인 시스템에 기계학습 기반의 재순위화 모델과 응답 필터링 모델을 순차적으로 적용하는 방법이다. 베이스라인 시스템의 경우 초기 성능은 F1 스코어 74.43, EM 스코어 60.79이며, 제안된 방법을 활용하였을 때 F1 스코어 82.5, EM 스코어 68.82로 성능이 향상되는 것을 확인하였다.
KorSciQA 2.0: 과학기술 분야 한국어 논문 기계독해를 위한 질의응답 데이터셋
http://doi.org/10.5626/JOK.2022.49.9.686
최근 다양한 질의응답 공개 과제를 통해 기계독해 시스템의 성능은 향상되고 있으며, 더욱 지능화된 기계독해 시스템의 학습을 위해 여러 텍스트 단락과 지문을 포괄적으로 이해하고 이산적인 추론을 해야 하는 도전적인 과제가 공개되고 있다. 그러나 한국어 학술정보를 이해하기 위한 복합추론 목적 질의 응답 데이터셋의 부재로 인해 학술 논문에 대한 기계독해 연구는 활발히 이루어지지 않고 있다. 본 논문에서는 한국어 학술 논문의 전문을 대상으로 난이도를 일반, 하, 상으로 나누어 기계독해 시스템의 변별력을 확인할 수 있는 질의응답 데이터인 KorSciQA 2.0을 구축하였으며, KorSciQA 2.0을 구축하기 위한 방법론과 프로세스, 그리고 시스템을 제안하였다. KorSciQA 2.0에 대한 기계독해 성능 평가 실험 결과, 과학기술분야 도메인에 대한 한국어 기반 BERT 모델인 KorSciBERT 모델을 기반으로 미세 조정(Fine-tuning)하였을 때, F1 성능이 80.76%로 가장 높은 성능을 보였다.
기계독해 기반 부분 트리 연결 방법을 적용한 한국어 의존 파싱
http://doi.org/10.5626/JOK.2022.49.8.617
한국어 의존 파싱은 전이 기반 방식과 그래프 기반 방식의 두 갈래로 연구되어 왔다. 그 중 그래프 기반 의존 파싱은 입력 문장을 인코딩한 후 지배소, 의존소에 대한 MLP를 적용하여 각각의 표상을 얻고 Biaffine 어텐션을 통해 모든 단어 쌍에 대한 그래프 점수를 얻어 이를 통해 트리를 생성하는 Biaffine 어텐션 모델이 대표적이다. Biaffine 어텐션 모델에서 문장 내의 각 단어들은 구문 트리 내의 부분 트리의 역할을 하지만 두 단어간의 의존성만을 판단하기 때문에 부분 트리의 정보를 효율적으로 활용할 수 없다는 단점이 존재한다. 본 연구에서는 이러한 단점을 해결하기 위해 제안된 Span-Span(부분 트리-부분 트리)로의 부분 트리 정보를 직접 모델링하는 기계 독해 기반 의존 파싱 모델을 한국어 구문 분석 데이터 셋에 적용하여 기존 Biaffine 어텐션 방식의 의존 파싱 모델 대비 향상된 결과를 얻었다.
사전 학습된 Encoder-Decoder 모델 기반 질의응답 쌍 생성을 통한 기계 독해 학습 데이터 증강 기법
http://doi.org/10.5626/JOK.2022.49.2.166
기계 독해 연구는 문서에서 질문에 대한 정답을 찾는 것으로 대규모 데이터가 필요하지만 개인 연구자나 소규모 연구 기관이 구축하는 것은 한계가 있다. 이에 본 논문은 사전 학습 언어모델을 활용한 기계 독해 데이터 증강 기법을 제안한다. 기계 독해 데이터 증강 기법은 질의응답 쌍 생성 모델과 데이터 검증 모델로 구성된다. 질의응답 쌍 생성 모델은 정답 추출 모델과 질문 생성 모델로 구성되며, 두 모델 모두 BART 모델을 미세 조정하여 구축하였다. 데이터 검증 모델은 증강 데이터의 신뢰성을 높이기 위해 별도로 추가하였으며, 증강 데이터의 활용 여부를 결정한다. 검증 모델은 ELECTRA 모델을 기계 독해 모델로 미세 조정하여 사용하였다. 증강 기법을 통한 모델 성능 개선을 확인하기 위해 KorQuAD v1.0 데이터에 증강 기법을 적용하였다. 실험 결과 기존 모델 대비 EM Score의 경우 최대 7.2 상승하였고 F1 Score는 최대 5.7 상승하는 유의미한 결과를 도출하였다.
기계 독해 성능 개선을 위한 데이터 증강 기법
http://doi.org/10.5626/JOK.2021.48.12.1298
기계 독해(Machine Reading Comprehension)란 컴퓨터가 주어진 텍스트의 의미를 이해 및 이를 평가하는 방법으로, 자연어 이해를 위한 중요한 기술 중 하나이다. 주어진 글에 대해서 질의가 주어졌을 때, 이에 대한 올바른 응답을 찾는 질의-응답이 가장 대표적인 기계 독해 과제이다. 기계 독해 기술은 최근 심층 인공신경망 기반의 자연어 처리 기술의 발달에 따라 획기적인 성능 개선을 보였다. 그럼에도 불구하고, 주어진 데이터가 희소할 때 성능 개선에 어려움이 있을 수 있다. 이를 해결하기 위해 본 논문에서는 단어 단위 및 문장 단위의 텍스트 편집을 통한 데이터 증강 기법을 활용하여 기존 모델의 변경을 최소화하며 성능 개선을 하고자 한다. 즉, 본 연구에서는 영어 질의응답 데이터에서 가장 널리 활용되고 있는 사전 학습된 언어 모델 기반의 기계 독해 모델에 데이터 증강 기법을 적용하여 기존 모델 대비성능이 향상되는 것을 확인하였다.
기계독해 말뭉치의 교차 평가, 블라인드 평가 및 오픈도메인 질의응답 환경 평가를 통한 한국어 기계독해의 일반화 성능 평가
http://doi.org/10.5626/JOK.2021.48.3.275
기계독해는 자연어 질문과 단락이 주어졌을 때 단락 내 정답을 찾는 태스크로, 최근 사전학습 언어모델을 이용한 방법이 우수한 성능을 보이고 있다. 본 논문에서는 현재 기계독해 기술이 학습말뭉치와 유사한 평가말뭉치가 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 말뭉치 간 교차 평가 및 블라인드 평가를 수행하였고, 교차 평가결과 정답 길이, 질문 단락 사이 오버랩 비율과 같은 통계와 일반화 성능 사이 관련이 있음을 확인하였다. 블라인드 평가결과, 정답 길이가 길고 질문-단락 사이 어휘 오버랩이 낮은 평가말뭉치에서는 80% 이하의 성능을 보였다. 마지막으로, 기계독해 모델을 오픈도메인 질의응답 환경에 적용할 경우의 일반화 성능을 평가하여, 검색 단락을 이용한 기계독해 시 성능이 하락함을 확인하였다. 기계독해는 태스크 특성 상 질문과 정답 사이 관계에 따라 난이도 및 일반화 성능 차이가 발생하여, 다양한 유형의 평가말뭉치에서의 평가가 필요함을 확인하였다.
다중 작업 학습을 통한 문장 유사도 기반 단락 재순위화 방법
http://doi.org/10.5626/JOK.2020.47.4.416
기계독해 시스템은 컴퓨터가 주어진 단락을 이해하고 질문에 대한 답변을 하는 질의응답 시스템이다. 최근 심층 신경망의 발전으로 기계독해 시스템의 연구가 활발해지면서 주어진 문서가 아닌 검색모델의 결과에서 정답을 찾는 연구(오픈 도메인 기계독해 시스템)가 진행되고 있다. 하지만 오픈 기계독해 시스템은 검색 모델이 정답을 포함하는 단락을 검색해오지 못할 경우, 질문에 대한 답을 할 수 없다. 즉, 오픈 도메인 기계독해 시스템의 성능은 검색 모델의 성능에 종속된다. 따라서 오픈 도메인 기계독해 시스템이 높은 성능을 기록하기 위해서는 높은 성능의 검색 모델이 요구된다. 검색 모델의 성능을 높이기 위한 기존 연구는 질의 확장과 재순위화 등을 통해 연구되었으며, 본 논문에서는 심층 신경망을 이용한 재순위화 방법을 제안한다. 제안 모델은 다중 작업 학습 기반 문장 유사도 측정을 통해 검색 결과(단락)를 재순위화하고, 자체 구축한 58,980 쌍의 기계독해 데이터의 실험 결과로 기존 검색 모델 성능과 비교하여 약 8%p(Precision 1 기준)의 성능 향상을 보였다.
포지션 인코딩 기반 S³-Net를 이용한 한국어 기계 독해
http://doi.org/10.5626/JOK.2019.46.3.234
S³-Net은 Simple Recurrent Unit (SRU)과 자기 자신의 RNN sequence에 대하여 어텐션 가중치(attention weight)를 계산하는 Self-Matching Networks를 기반으로 기계 독해 질의 응답을 해결하는 딥 러닝 모델이다. 기계 독해 질의 응답에서 질문에 대한 답은 문맥 내에서 발생하는데, 하나의 문맥은 여러 문장으로 이뤄지기 때문에 입력 시퀀스의 길이가 길어져 성능이 저하되는 문제가 있다. 본 논문에서는 이와 같이 문맥이 길어져 성능이 저하되는 문제를 해결하기 위하여 문장 단위의 인코딩을 추가한 계층모델과, 단어 순서 정보를 확인하는 포지션 인코딩을 적용한 S³-Net을 제안한다. 실험 결과, 본 논문에서 제안한 S³-Net 모델이 한국어 기계 독해 데이터 셋에서 기존의 S²-Net보다 우수한(single test) EM 69.43%, F1 81.53%, (ensemble test) EM 71.28%, F1 82.67%의 성능을 보였다.