검색 : [ keyword: 텍스트 생성 ] (4)

한국어 소형 거대 언어 모델의 차트 이미지 설명 텍스트 생성 가능성에 관한 실험적 연구

안효준, 최성필

http://doi.org/10.5626/JOK.2025.52.2.132

본 연구는 차트 이미지에서의 정보를 자동으로 생성하고 해석하는 데 있어 소형 거대 언어 모델(소형 거대 언어 모델)의 활용 가능성을 탐구하였다. 이를 위하여 차트 이미지로부터 텍스트 데이터를 생성하고 이에 대한 설명 데이터를 추가하여, 소형 거대 언어 모델 학습을 위한 인스트럭션 데이터셋을 구축하였다. 공개된 한국어 소형 거대 언어 모델을 대상으로 인스트럭션 튜닝을 진행하였으며, 해당 소형 거대 언어 모델에 대한 차트 이미지로 부터의 정보 추출 가능성을 실험하였다. 실험 결과, 구축된 인스트럭션 데이터셋을 통해 미세 조정된 소형 거대 언어 모델은 OpenAI의 gpt-4o-mini API와 유사한 수준에서의 설명 텍스트 생성이 가능한 것으로 나타났다. 본 연구를 통해 향후 한국어 소형 거대 언어 모델이 더욱 다양한 범위의 시각적 데이터를 대상으로 설명 텍스트 및 정보 제공에 사용될 수 있을 것으로 기대한다.

정확도와 다양성을 고려한 시각적 질문 생성 프레임워크

최희연, 최동완

http://doi.org/10.5626/JOK.2025.52.1.62

시각적 질문 생성(Visual Question Generation)은 주어진 이미지에 대한 질문을 생성하는 과제로, 필요에 따라 답변이나 답변유형 등 추가 정보를 활용한다. 이미지에는 여러 객체가 포함되어 있어 VQG 시스템은 한 이미지에 대해 다양한 질문을 생성할 수 있어야 하며, 생성된 질문은 이미지 및 추가 정보와 연관성을 가져야 한다. 그러나 연관성에 집중한 모델은 학습 과정에서 데이터셋에 과적합되어 질문 다양성이 부족해질 수 있고, 반대로 다양성에 치우친 모델은 입력과의 연관성이 떨어질 수 있다. 이 사이 균형을 맞추기 위해, 본 논문에서는 BCVQG(BLIP-CVAE VQG)를 제안한다. BCVQG는 대규모 이미지-텍스트 데이터셋으로 사전학습된 비전-언어 모델 BLIP과 조건부 변분 오토인코더(Conditional Variational AutoEncoder)를 결합해 설계되었으며, 제안된 방법의 효과는 VQA2.0 데이터셋을 통한 정량적 및 정성적 평가를 통해 입증된다.

질의응답에 대한 지식베이스 기반 근거 문장 생성 모델

성수진, 차정원

http://doi.org/10.5626/JOK.2023.50.11.940

본 연구에서는 지식베이스로부터 질의에 대한 근거 문장을 생성하여 응답 추론 과정에 정보를 추가하고, 사람이 읽기 쉬운 형태의 근거 문장을 제공하고자 한다. 이를 위해 HotpotQA 데이터 내 근거 문서에 대한 디비피디아와 위키데이터 두 개의 지식베이스를 직접 수집하고, 수집된 트리플을 기반으로 근거 문장 생성 모델을 학습한다. 답변 생성 모델은 생성된 근거 문장과 질문을 입력으로 학습한다. 지식베이스를 기반으로 생성된 근거 문장은 디비피디아와 위키데이터에 관계없이 모두 응답 생성에 대해 긍정적인 추가 정보를 제공하여 응답 생성 성능을 향상시킬 수 있었고, 사람이 이해할 수 있는 문장을 생성할 수 있었다.

PrefixLM에 기반한 한국어 텍스트 요약

이건희, 나승훈, 임준호, 김태형, 장두성

http://doi.org/10.5626/JOK.2022.49.6.475

본 논문에서는 거대 언어 모델 중 하나인 T5의 인코더-디코더 구조 대비 절반의 크기를 가지는 PrefixLM 구조의 한국어 모델을 학습하여 성능을 확인한다. PrefixLM 모델은 입력과 출력 시퀀스가 단일 시퀀스로 연결되어 트랜스포머 블록에 함께 입력된다. 이때 어텐션 내부 연산 시 사용되는 어텐션 마스크의 변형을 통해 단일 트랜스포머 블록에서 입력 시퀀스 부분은 양방향 어텐션, 출력 시퀀스 부분은 단방향 어텐션이 이루어지도록 조정된다. 이를 통해 인코더와 디코더 역할을 한 레이어에서 수행할 수 있게 된다. 소규모 데이터로 한국어 모델을 여러 방식으로 학습한다. 자연어 처리에서 중요한 태스크 중 하나인 텍스트 생성 요약 태스크에서 기반 모델, 위치 인코딩 방식 등에 따른 성능 차이를 확인한다. BART, T5와 비교하여 각각 2.17, 2.78점의 성능 향상을 보여 PrefixLM 구조가 한국어에서도 충분히 유효함을 보인다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr