디지털 라이브러리[ 검색결과 ]
사전 학습된 한국어 언어 모델의 보정
http://doi.org/10.5626/JOK.2021.48.4.434
심층 학습 모델의 발전은 컴퓨터 비전, 자연언어 이해 문제들에서 인간을 뛰어넘는 성능을 보이고 있다. 특히 트랜스포머 기반의 사전 학습 모델은 질의응답, 대화문과 같은 자연언어 이해 문제에서 최근 높은 성능을 보인다. 하지만 심층 학습 모델의 급격한 발전 양상에 비해, 이의 동작 방식은 상대적으로 잘 알려져 있지 않다. 심층 학습 모델을 해석하는 방법으로 모델의 예측 값과 실제 값이 얼마나 일치하는지를 측정하는 모델의 보정이 있다. 본 연구는 한국어 기반의 사전 학습된 심층 학습 모델의 해석을 위해 모델의 보정을 수행했다. 그리고 사전 학습된 한국어 언어 모델이 문장이 내포하는 애매성을 잘 파악하는지의 여부를 확인하고, 완화 기법들을 적용하여 문장의 애매성을 확신 수준을 통해 정량적으로 출력할 수 있도록 했다. 또한 한국어의 문법적 특징으로 인한 문장의 의미 변화를 모델 보정 관점에서 평가하여 한국어의 문법적 특징을 사전 학습된 언어 모델이 잘 이해하고 있는지를 정량적으로 확인했다.
기계독해 말뭉치의 교차 평가, 블라인드 평가 및 오픈도메인 질의응답 환경 평가를 통한 한국어 기계독해의 일반화 성능 평가
http://doi.org/10.5626/JOK.2021.48.3.275
기계독해는 자연어 질문과 단락이 주어졌을 때 단락 내 정답을 찾는 태스크로, 최근 사전학습 언어모델을 이용한 방법이 우수한 성능을 보이고 있다. 본 논문에서는 현재 기계독해 기술이 학습말뭉치와 유사한 평가말뭉치가 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 말뭉치 간 교차 평가 및 블라인드 평가를 수행하였고, 교차 평가결과 정답 길이, 질문 단락 사이 오버랩 비율과 같은 통계와 일반화 성능 사이 관련이 있음을 확인하였다. 블라인드 평가결과, 정답 길이가 길고 질문-단락 사이 어휘 오버랩이 낮은 평가말뭉치에서는 80% 이하의 성능을 보였다. 마지막으로, 기계독해 모델을 오픈도메인 질의응답 환경에 적용할 경우의 일반화 성능을 평가하여, 검색 단락을 이용한 기계독해 시 성능이 하락함을 확인하였다. 기계독해는 태스크 특성 상 질문과 정답 사이 관계에 따라 난이도 및 일반화 성능 차이가 발생하여, 다양한 유형의 평가말뭉치에서의 평가가 필요함을 확인하였다.
사전학습 언어모델의 토큰 단위 문맥 표현을 이용한 한국어 의존 구문분석
http://doi.org/10.5626/JOK.2021.48.1.27
의존 구문분석은 문장 내 단어 사이의 의존관계 및 레이블을 인식하여 문장의 구조적 중의성을 해소하는 문제이다. 사전학습 언어모델 위에 추가적인 순환신경망(RNN)을 적용한 선행 연구들과 달리, 본 논문에서는 사전학습 언어모델의 자가집중 메커니즘을 최대한 활용하기 위하여 사후학습만을 이용한 의존 구문분석 방법을 제안하고, 성능 개선을 위하여 어절 사이의 상대거리 파라미터와 구분자 토큰 활용기법을 제안한다. TTA 표준 가이드라인 세종 구문분석 말뭉치를 평가결과 KorBERT_base 모델은 95.73% UAS, 93.39% LAS를, KorBERT_large 모델은 96.31% UAS, 94.17% LAS를 보였다. 이는 사전학습 언어모델을 사용하지 않은 기존 연구 대비 약 3% 이상의 성능 개선을 보인 결과이다. 다음으로 선행 연구의 어절-형태소 혼합 변환 말뭉치 평가 결과, KorBERT_base 모델은 94.19% UAS, KorBERT_large 모델은 94.76% UAS 성능을 보였다.
BERT를 이용한 한국어 의미역 결정
http://doi.org/10.5626/JOK.2020.47.11.1021
의미역 결정은 문장 내에서 “누가, 무엇을, 어떻게, 왜” 등의 관계를 찾아내는 자연어처리의 한 응용이다. 최근 의미역 결정 연구는 주로 기계학습을 이용하고 자질 정보를 배제한 종단 대 종단(end-to-end) 방식의 연구가 이루어지고 있다. 최근 BERT(Bidirectional Encoder Representations from Transformers)라는 언어 모델이 자연어처리 분야에 등장하여 기존 자연어처리 분야의 최고 성능 모델들 보다 더 좋은 성능을 보이고 있다. 종단 대 종단 방식을 이용한 의미역 결정 연구의 성능은 주로 기계학습 모델의 구조나 사전에 학습된 언어 모델의 영향을 받는다. 따라서 본 논문에서는 한국어 의미역 결정성능 향상을 위해 BERT를 한국어 의미역 결정에 적용한다. 실험 결과 BERT를 이용한 한국어 의미역 결정 모델의 성능이 85.77%로 기존 한국어 의미역 결정 모델들 보다 좋은 성능을 보였다.
소규모 데이터 기반 한국어 버트 모델
http://doi.org/10.5626/JOK.2020.47.7.682
최근 자연어처리에서 문장 단위의 임베딩을 위한 모델들은 거대한 말뭉치와 파라미터를 이용하기 때문에 큰 하드웨어와 데이터를 요구하고 학습하는 데 시간이 오래 걸린다는 단점을 갖는다. 따라서 규모가 크지 않더라도 학습 데이터를 경제적으로 활용하면서 필적할만한 성능을 가지는 모델의 필요성이 제기된다. 본 연구는 음절 단위의 한국어 사전, 자소 단위의 한국어 사전을 구축하고 자소 단위의 학습과 양방향 WordPiece 토크나이저를 새롭게 소개하였다. 그 결과 기존 모델의 1/10 사이즈의 학습 데이터를 이용하고 적절한 크기의 사전을 사용해 더 적은 파라미터로 계산량은 줄고 성능은 비슷한 KR-BERT 모델을 구현할 수 있었다. 이로써 한국어와 같이 고유의 문자 체계를 가지고 형태론적으로 복잡하며 자원이 적은 언어에 대해 모델을 구축할 때는 해당 언어에 특화된 언어학적 현상을 반영해야 한다는 것을 확인하였다.
Analysis of the Semantic Answer Types to Understand the Limitations of MRQA Models
Doyeon Lim, Haritz Puerto San Roman, Sung-Hyon Myaeng
http://doi.org/10.5626/JOK.2020.47.3.298
최근 MRQA 모델들의 성능이 인간을 넘어섰다. 그리하여 MRQA 모델의 새로운 가능성들을 찾기 위해 새로운 데이터 셋들이 소개되고 있다. 하지만, 이전 MRQA모델들이 어떤 유형에서 문제를 잘풀고 어떤 한계점이 있는지 자세한 분석을 통해 새로운 데이터셋을 제시하는 경우는 거의 없었다. 이 연구에서는 MRQA가 극복했다고 여겨지는 SQuAD 데이터 셋을 분석하여 MRQA가 언어를 이해한 것이 아니라 특정한 패턴을 찾아냈다는 것을 밝혀낸다. 이 과정에서 기존 QA데이터 셋에서 주로 등장하는 wh-word와 Lexical Answer Type (LAT) 정보에 많은 모델들이 특히 집중하고 있다는 것을 밝히고, 그 때문에 질의와 문서의 정보를 충분히 이해하지 못하고 있다는 것을 정성, 정량적인 수치로 보였다. 이러한 분석을 바탕으로 앞으로 MRQA의 데이터셋의 방향과 모델들이 극복해야할 한계점을 제시하였다.
거대 언어모델을 활용한 측면 기반 비교 요약
http://doi.org/10.5626/JOK.2025.52.7.579
본 논문은 사용자의 의사 결정을 돕기 위해 두 아이템의 리뷰 셋으로부터 두 아이템을 비교할 수 있는 측면 기반 비교 요약문 생성 방법을 제안한다. 두 아이템의 리뷰가 주어졌을 때, 아이템들이 가진 다양한 측면들을 비교하기 위해 거대 언어모델을 활용하여 각 리뷰에서 주요 측면을 동적으로 생성한다. 각 리뷰에서 추출된 측면으로부터 두 아이템을 비교할 공통된 측면을 도출하기 위해, 두 아이템의 측면 리스트를 병합한다. 리뷰에서 불필요한 정보를 제거하기 위해 아이템 리뷰의 문장들을 가장 유사한 측면으로 분류한 후, 요약 과정을 거쳐 핵심 정보만 남긴다. 다음으로 공통된 측면마다 개별 아이템에 대한 전반적인 내용을 담으면서 동시에 대응하는 아이템과 비교할 수 있도록 거대 언어모델을 활용하여 추상 요약문을 생성한다. 실험에서는 호텔, 전자기기, 가구 도메인에서 사람이 작성한 비교 요약문과 시스템이 생성한 요약을 비교하였으며, 제안한 방법이 기존의 비교 모델보다 우수한 요약 성능을 보였다.
추론 경로를 통한 거대언어모델 기반 제로샷 대화형 추천시스템 성능 개선
http://doi.org/10.5626/JOK.2025.52.7.617
대화형 추천시스템은 사용자와의 양방향 상호작용을 통해 개인화된 항목 추천을 제공한다. 기존 대화형 추천시스템은 사용자의 선호를 효과적으로 포착하기 위해 지식 그래프와 같은 외부 지식에 의존해왔다. 최근 거대언어모델의 급속한 발전으로 제로샷 기반 추천이 가능해졌으나, 사용자의 암시적 선호도 파악과 최적의 추론 경로 설계라는 도전 과제가 존재한다. 본 연구에서는 이러한 한계를 해결하기 위해 제로샷 기반 대화형 추천시스템에서 적합한 추론 경로 구성의 중요성을 검증하고, 이에 기반한 새로운 접근법의 가능성을 탐구한다. 제안된 프레임워크는 (1) 대화 맥락에서 명시적 및 잠재적 선호도를 추출하고, (2) 이를 바탕으로 추론 트리를 구축하여 최적의 추론 경로를 선택하는 두 단계로 구성된다. 대표적인 벤치마크 데이터셋인 INSPIRED와 ReDial에서 제안 방법은 기존 제로샷 방법 대비 Recall@10에서 최대 11.77%의 성능 개선을 달성하였으며, 일부 학습 기반 모델의 성능을 상회한다.
비윤리적 유머를 활용한 LLM 안전성 평가
http://doi.org/10.5626/JOK.2025.52.6.508
본 연구는 한국어 유머 중 사회적으로 위험한 사례를 활용하여 생성형 언어모델의 안전성 평가를 진행한다. 최근 언어모델이 사회적 규범, 윤리에 어긋나는 입력에 대해 그럴듯한 답변을 생성하는 등의 악용 사례가 발생하면서 안전한 인공지능 개발의 중요성이 확대되었다. 이러한 사회적 흐름에서 본 연구는 AI의 잠재적 위험을 식별하고 방어하기 위해 유머 내의 포함된 위험을 분석하고 이를 평가할 수 있는 벤치마크를 개발하여 실험하였다. 위험한 유머는 유희성과 재미, 농담 맥락 속에서 비윤리적이거나 위험한 요소들이 간과된다. 이는 AI 안전성 평가에서 중요하게 다루어지는 교묘하면서도 우회적인 입력 패턴과 유사하여 위험한 유머를 통해 대표적인 생성형 언어모델의 안전성 평가를 수행하였다. 실험은 비윤리적인 유머와 관련한 입력 요청에 대한 생성 결과를 이진 분류한 다음 모델의 안전성 수준을 구분하여 평가를 진행하였다. 연구 결과 모델들은 위험한 유머에 대한 윤리적 판단에 취약한 모습을 보이고 있었다.
강인한 Open-Vocabulary Object Detection을 위한 계층적 의미 반영 프롬프트 설계
http://doi.org/10.5626/JOK.2025.52.6.499
Open-Vocabulary Object Detection(OVOD)는 학습 시 사용된 카테고리에만 한정되는 기존 객체 탐지 방식의 한계를 극복하기 위해 제안된 기법이다. 기존 OVOD는 탐지하고자 하는 물체를 “a {category}” 라는 프롬프트를 활용해 분류기를 생성하여 물체를 탐지하였으나, 본 논문에서는 탐지하고자 하는 물체의 계층적 구조를 프롬프트에 적용하여 탐지 능력을 향상하였다. 특히, 문장의 길이가 길어지는 연결어의 사용을 줄이고, 강조하고자 하는 단어를 문장 앞에 위치시키는 등의 프롬프트 엔지니어링 방식을 사용하여 더 좋은 탐지 성능을 가지는 것을 확인하였다. 이는 물체의 계층 구조에 따른 내재적 의미를 잘 나타내는 문장을 구성할 수 있으며, 추가적인 컴퓨팅 자원 없이 분류기를 생성할 수 있다는 장점을 지닌다. 또한, 이미지 캡셔닝, 의료 영상 분석 등의 분야에서도 적용 가능하며, 사람에게 익숙한 계층적 표현을 활용함으로써 모델의 설명력 향상에 기여할 수 있다.