디지털 라이브러리[ 검색결과 ]
대체 토큰 감지 모델을 통한 대체어 추출
http://doi.org/10.5626/JOK.2023.50.4.321
대체어란 한 문장에서 특정 단어를 대신하여 사용해도 문장의 의미를 훼손하지 않는 단어이며, 이를 추출하는 기술은 데이터 증강 등 다양한 자연어처리 문제에 활용할 수 있다. 기존 대체어 추출 방법은 문맥에 부자연스러운 대체어를 추출할 수 있다는 문제가 있다. 이를 해결하기 위해 본 논문에서는 말뭉치에서 목표 단어가 포함된 문장을 샘플링하여 사전학습 BERT 기반 대체어 후보 생성 모델에 입력하고, 대체 토큰 감지 모델로 부적합한 대체어를 제외하여 대체어를 추출하는 방법을 제안한다. 국립국어원 문어 말뭉치 및 ㈜낱말 기본유의어 사전을 통해 검증한 결과, 본 제안 방법은 기존 방법에 비해 더 정확한 대체어를 추출한다. 또한 부적합한 대체어를 제외하는 모델로 사료될 수 있는 문법성 판단 모델보다 본 연구에서 제안한 대체 토큰 감지 모델의 대체어 추출 성능이 더 뛰어난 것을 확인하였다.
기계 독해 성능 개선을 위한 데이터 증강 기법
http://doi.org/10.5626/JOK.2021.48.12.1298
기계 독해(Machine Reading Comprehension)란 컴퓨터가 주어진 텍스트의 의미를 이해 및 이를 평가하는 방법으로, 자연어 이해를 위한 중요한 기술 중 하나이다. 주어진 글에 대해서 질의가 주어졌을 때, 이에 대한 올바른 응답을 찾는 질의-응답이 가장 대표적인 기계 독해 과제이다. 기계 독해 기술은 최근 심층 인공신경망 기반의 자연어 처리 기술의 발달에 따라 획기적인 성능 개선을 보였다. 그럼에도 불구하고, 주어진 데이터가 희소할 때 성능 개선에 어려움이 있을 수 있다. 이를 해결하기 위해 본 논문에서는 단어 단위 및 문장 단위의 텍스트 편집을 통한 데이터 증강 기법을 활용하여 기존 모델의 변경을 최소화하며 성능 개선을 하고자 한다. 즉, 본 연구에서는 영어 질의응답 데이터에서 가장 널리 활용되고 있는 사전 학습된 언어 모델 기반의 기계 독해 모델에 데이터 증강 기법을 적용하여 기존 모델 대비성능이 향상되는 것을 확인하였다.
상위 클래스 정보와 사전 학습된 언어 모델을 이용한 지식 그래프 완성 모델
http://doi.org/10.5626/JOK.2021.48.11.1228
링크 예측은 지식 그래프에서 누락된 링크를 추론하는 것을 목표로 한다. 최근 지식 그래프를 완성하기 위해 다양한 링크 예측 모델이 연구되었고 의미 있는 결과를 얻었다. 그러나 기존 모델은 학습 트리플의 내재적 정보만 사용하여 학습하기 때문에 과적합 되는 문제가 있다. 이러한 문제를 해결하기 위해, 우리는 개체의 추상적 정보를 학습할 수 있는 상위 클래스 예측과 링크 예측을 multi-task learning 방법으로 수행하는 "상위 클래스 정보와 사전 학습된 언어 모델을 이용한 지식 그래프 완성 모델(HIP)"을 제안한다. HIP의 상위 클래스 예측 작업은 트리플의 문맥적 정보뿐만 아니라 개체의 추상적 정보 학습을 통해 같은 상위 클래스 정보를 갖는 개체들이 비슷한 임베딩을 가지며 개체의 일반적인 정보를 학습한다. 실험 결과 KG-BERT 및 MTL-KGC 모델에 비해 Hits@10과 Mean Rank (MR)에서 의미 있는 성능 향상을 보였다.
사전 학습된 한국어 언어 모델의 보정
http://doi.org/10.5626/JOK.2021.48.4.434
심층 학습 모델의 발전은 컴퓨터 비전, 자연언어 이해 문제들에서 인간을 뛰어넘는 성능을 보이고 있다. 특히 트랜스포머 기반의 사전 학습 모델은 질의응답, 대화문과 같은 자연언어 이해 문제에서 최근 높은 성능을 보인다. 하지만 심층 학습 모델의 급격한 발전 양상에 비해, 이의 동작 방식은 상대적으로 잘 알려져 있지 않다. 심층 학습 모델을 해석하는 방법으로 모델의 예측 값과 실제 값이 얼마나 일치하는지를 측정하는 모델의 보정이 있다. 본 연구는 한국어 기반의 사전 학습된 심층 학습 모델의 해석을 위해 모델의 보정을 수행했다. 그리고 사전 학습된 한국어 언어 모델이 문장이 내포하는 애매성을 잘 파악하는지의 여부를 확인하고, 완화 기법들을 적용하여 문장의 애매성을 확신 수준을 통해 정량적으로 출력할 수 있도록 했다. 또한 한국어의 문법적 특징으로 인한 문장의 의미 변화를 모델 보정 관점에서 평가하여 한국어의 문법적 특징을 사전 학습된 언어 모델이 잘 이해하고 있는지를 정량적으로 확인했다.
BERT를 이용한 한국어 의미역 결정
http://doi.org/10.5626/JOK.2020.47.11.1021
의미역 결정은 문장 내에서 “누가, 무엇을, 어떻게, 왜” 등의 관계를 찾아내는 자연어처리의 한 응용이다. 최근 의미역 결정 연구는 주로 기계학습을 이용하고 자질 정보를 배제한 종단 대 종단(end-to-end) 방식의 연구가 이루어지고 있다. 최근 BERT(Bidirectional Encoder Representations from Transformers)라는 언어 모델이 자연어처리 분야에 등장하여 기존 자연어처리 분야의 최고 성능 모델들 보다 더 좋은 성능을 보이고 있다. 종단 대 종단 방식을 이용한 의미역 결정 연구의 성능은 주로 기계학습 모델의 구조나 사전에 학습된 언어 모델의 영향을 받는다. 따라서 본 논문에서는 한국어 의미역 결정성능 향상을 위해 BERT를 한국어 의미역 결정에 적용한다. 실험 결과 BERT를 이용한 한국어 의미역 결정 모델의 성능이 85.77%로 기존 한국어 의미역 결정 모델들 보다 좋은 성능을 보였다.
소규모 데이터 기반 한국어 버트 모델
http://doi.org/10.5626/JOK.2020.47.7.682
최근 자연어처리에서 문장 단위의 임베딩을 위한 모델들은 거대한 말뭉치와 파라미터를 이용하기 때문에 큰 하드웨어와 데이터를 요구하고 학습하는 데 시간이 오래 걸린다는 단점을 갖는다. 따라서 규모가 크지 않더라도 학습 데이터를 경제적으로 활용하면서 필적할만한 성능을 가지는 모델의 필요성이 제기된다. 본 연구는 음절 단위의 한국어 사전, 자소 단위의 한국어 사전을 구축하고 자소 단위의 학습과 양방향 WordPiece 토크나이저를 새롭게 소개하였다. 그 결과 기존 모델의 1/10 사이즈의 학습 데이터를 이용하고 적절한 크기의 사전을 사용해 더 적은 파라미터로 계산량은 줄고 성능은 비슷한 KR-BERT 모델을 구현할 수 있었다. 이로써 한국어와 같이 고유의 문자 체계를 가지고 형태론적으로 복잡하며 자원이 적은 언어에 대해 모델을 구축할 때는 해당 언어에 특화된 언어학적 현상을 반영해야 한다는 것을 확인하였다.
Analysis of the Semantic Answer Types to Understand the Limitations of MRQA Models
Doyeon Lim, Haritz Puerto San Roman, Sung-Hyon Myaeng
http://doi.org/10.5626/JOK.2020.47.3.298
최근 MRQA 모델들의 성능이 인간을 넘어섰다. 그리하여 MRQA 모델의 새로운 가능성들을 찾기 위해 새로운 데이터 셋들이 소개되고 있다. 하지만, 이전 MRQA모델들이 어떤 유형에서 문제를 잘풀고 어떤 한계점이 있는지 자세한 분석을 통해 새로운 데이터셋을 제시하는 경우는 거의 없었다. 이 연구에서는 MRQA가 극복했다고 여겨지는 SQuAD 데이터 셋을 분석하여 MRQA가 언어를 이해한 것이 아니라 특정한 패턴을 찾아냈다는 것을 밝혀낸다. 이 과정에서 기존 QA데이터 셋에서 주로 등장하는 wh-word와 Lexical Answer Type (LAT) 정보에 많은 모델들이 특히 집중하고 있다는 것을 밝히고, 그 때문에 질의와 문서의 정보를 충분히 이해하지 못하고 있다는 것을 정성, 정량적인 수치로 보였다. 이러한 분석을 바탕으로 앞으로 MRQA의 데이터셋의 방향과 모델들이 극복해야할 한계점을 제시하였다.
대규모 언어 모델에 기반한 질문 재작성을 활용한 검색증강 생성 시스템
http://doi.org/10.5626/JOK.2025.52.6.474
본 논문에서는 미세 조정 학습 없이 전문 지식이 요구되는 분야에서 효과적으로 활용할 수 있는 검색기 구조를 제안한다. 이 과정에서 높은 정확도를 위해 대규모 언어모델을 활용해 질문과 유사한 예시를 생성하여 기존 검색기에 비해 유사도를 향상시키는 쿼리 리라이팅 검색기 방법론을 제안한다. 해당 방법론은 자동 평가와 전문가의 질적 평가에서 모두 우수한 성능을 거두었으며, 예시를 통해 검색기의 결과에 설명가능성을 제공한다. 또한 해당 방법론을 적용하는 과정에서 활용되는 프롬프트를 제안함에 다양한 전문 지식이 필요한 분야에서의 활용가능성을 제시한다. 이에 더하여 쿼리 리라이팅 검색기에서 선별한 3개의 검색 결과 중 정답 문서 1개를 선별하는 Top1 검색기를 추가한 파이프라인 방법론을 제안한다. 이는 대규모 언어 모델에 불필요한 문서가 입력되어 발생하는 환각 문제를 예방하는 것을 목표로 한다.
강인한 Open-Vocabulary Object Detection을 위한 계층적 의미 반영 프롬프트 설계
http://doi.org/10.5626/JOK.2025.52.6.499
Open-Vocabulary Object Detection(OVOD)는 학습 시 사용된 카테고리에만 한정되는 기존 객체 탐지 방식의 한계를 극복하기 위해 제안된 기법이다. 기존 OVOD는 탐지하고자 하는 물체를 “a {category}” 라는 프롬프트를 활용해 분류기를 생성하여 물체를 탐지하였으나, 본 논문에서는 탐지하고자 하는 물체의 계층적 구조를 프롬프트에 적용하여 탐지 능력을 향상하였다. 특히, 문장의 길이가 길어지는 연결어의 사용을 줄이고, 강조하고자 하는 단어를 문장 앞에 위치시키는 등의 프롬프트 엔지니어링 방식을 사용하여 더 좋은 탐지 성능을 가지는 것을 확인하였다. 이는 물체의 계층 구조에 따른 내재적 의미를 잘 나타내는 문장을 구성할 수 있으며, 추가적인 컴퓨팅 자원 없이 분류기를 생성할 수 있다는 장점을 지닌다. 또한, 이미지 캡셔닝, 의료 영상 분석 등의 분야에서도 적용 가능하며, 사람에게 익숙한 계층적 표현을 활용함으로써 모델의 설명력 향상에 기여할 수 있다.
모델 병합을 활용한 거대 언어 모델 기반 다중 도메인 추천 시스템
http://doi.org/10.5626/JOK.2025.52.6.548
최근 추천 시스템 연구에서는 사전 학습된 거대 언어 모델을 활용하여 추천 항목의 자연어 정보를 효과적으로 이해하는 거대 언어 모델 기반 추천 시스템이 주목받고 있다. 이러한 추천 시스템은 높은 정확도를 보이지만, 각 추천 도메인마다 별개의 추천 모델을 학습해야 하는 한계가 있다. 이는 여러 개의 모델을 저장하고 추론하는 비용을 증가시키며, 도메인 간 지식 공유를 어렵게 만든다. 본 연구에서는 다양한 추천 도메인에서 효과적으로 작동할 수 있는 거대 언어 모델 기반 추천 모델을 제안하기 위해, 과업 벡터(task vector) 기반 모델 병합(model merging)을 적용한다. 모델 병합 과정에서는 도메인 별로 학습된 추천 모델로부터 지식 증류(knowledge distillation)를 활용하여 모델 병합을 위한 최적의 가중치를 학습한다. 실험 결과, 제안 방법을 통해 생성한 추천 모델은 8개의 도메인에서 기존의 모델 병합 방법론을 활용한 추천 모델보다 평균 2.75% 개선된 추천 정확도를 보였으며, 학습하지 않은 새로운 도메인에서도 우수한 일반화 성능을 보임을 확인하였다.