검색 : [ keyword: 생성 모델 ] (6)

풀업(Pull-up) 기동을 고려한 Diffusion 기반 비행체 궤적 예측 생성 모델

이성균, 강준성, 염제윤, 홍동욱, 김영민, 송경우

http://doi.org/10.5626/JOK.2025.52.3.241

본 논문은 비행체의 풀업(pull-up) 기동을 고려한 비선형 궤적 예측을 목표로 하여, 시계열 다변량 데이터를 처리하는 새로운 모델을 제안한다. 이를 위해 최신 생성형 인공지능 모델인 CSDI (Conditional Score-based Diffusion Models for Imputation)를 기반으로 비행체의 궤적을 예측하였다. 특히 풀업 기동 여부에 따라 비행체의 항행 거리와 모양이 크게 달라지므로, 풀업이 있는 데이터와 풀업이 없는 데이터를 분리하여 각각의 모델을 학습하고 예측하였다. 실험 결과, 모델이 실제 궤적과 매우 유사한 궤적으로 예측하였으며 MAE, RMSE, CRPS 지표에서 기존 딥러닝 모델보다 높은 성능을 기록하였다. 본 연구는 비행체 궤적 예측의 정확성을 높였을 뿐만 아니라, 향후 Classifier Diffusion 모델과의 결합을 통해 더 정교한 예측을 가능하게 할 수 있음을 제시한다.

장기 대화를 위한 다각적 주의집중 기반 생성 모델

김홍진, 금빛나, 황금하, 권오욱, 김학수

http://doi.org/10.5626/JOK.2025.52.2.117

더욱 사람 같은 대화 모델을 실현하기 위해, 페르소나 메모리를 활용하여 응답을 생성하는 연구들이 활발히 진행되고 있다. 다수의 기존 연구들에서는 메모리로부터 관련된 페르소나를 찾기 위해 별도의 검색 모델을 이용한다. 그러나 이는 전체 시스템에 속도 저하를 일으키고 시스템을 무겁게 만드는 문제가 있다. 또한, 기존 연구들은 페르소나를 잘 반영해 응답하는 능력에만 중점을 두는데, 그 전에 페르소나 참조의 필요성 여부를 판별하는 능력이 선행되어야 한다. 따라서, 본 논문에서는 검색 모델을 활용하지 않고 생성 모델의 내부에서 다각적 주의집중 연산을 통해 메모리의 참조가 필요한지를 판별한다. 참조가 필요하다고 판단한 경우에는 관련된 페르소나를 반영하여 응답하며, 그렇지 않은 경우에는 대화 문맥에 집중하여 응답을 생성한다. 실험 결과를 통해 제안 모델이 장기적인 대화에서 효과적으로 동작함을 확인하였다.

이진화 마스킹을 이용한 생성 이미지의 배경 인페인팅 성능 향상

이지훈, 배찬호, 이승훈, 최명석, 이용, 안상태

http://doi.org/10.5626/JOK.2024.51.6.537

최근에 딥러닝분야에서 이미지 생성 기술은 빠르게 발전하고있다. 이미지를 가장 잘 표현할 수 있는 방법 중 하나는 텍스트 프롬프트를 이용해 이미지를 생성하는 기술이고, 이를 이용해 이미지를 생 성하는 모델의 성능은 매우 뛰어나다. 하지만 이미지에서 텍스트 프롬프트만으로 원하는 부분을 자연스럽게 바꾸는 것은 쉽지가 않은데 이는 전형적인 이미지 생성 모델의 문제점이라고 할 수 있다. 따라서 본 연구에서는 이미지의 각 영역에 대한 텍스트를 추출하고 이를 바탕으로 하여 이미지의 객체를 유지하면서 배경 영역을 자연스럽게 바꿔주는 배경 인페인팅 기술을 개발하였다. 특히 제안하는 이미지의 배경 변환 인페인팅 기법은 한 장의 이미지로의 변환뿐만 아니라 여러 장의 이미지로 빠르게 변환할 수 있는 장점을 가지고 있다. 텍스트 프롬프트 기반 이미지 스타일 변환을 통해 데이터가 부족한 분야에 적용한다면 이미지 증식을 통해 인공지능 모델의 성능을 향상시킬 수 있을 것이다.

Polyphonic Music Generation with Sequence Generative Adversarial Networks

Sang-gil Lee, Uiwon Hwang, Seonwoo Min, Sungroh Yoon

http://doi.org/10.5626/JOK.2024.51.1.78

본 논문에서는 sequence generative adversarial networks (SeqGAN)을 활용하여 다성음악 시퀀스 생성 방법을 제안한다. 우리는 코드와 멜로디를 모두 고려한 다성 MIDI 파일을 표현하는 기법을 제안하며, 이 표현법은 멜로디와 코드의 음의 길이, 옥타브, 및 조표를 하나의 단어 벡터로 압축한다. 생성자는 순환 신경망으로 구성되었으며, 음악 시퀀스의 분포를 예측하도록 학습되었다. 또한, 모델의 학습을 안정화하기 위해 판별자에 최소 제곱 손실함수를 사용하였다. 제안하는 모델은 음악적으로 일관된 시퀀스를 생성하며, 정량적 및 정성적으로 생성 성능이 향상됨을 확인하였다.

질의와 관련있는 답변 생성을 위해 잠재 답변을 고려하여 질의를 인코딩하는 질의 토큰 중요도 계산기

김소언, 홍충선, 박성배

http://doi.org/10.5626/JOK.2022.49.8.601

대화 답변 생성 모델은 시퀀스-투-시퀀스 모델을 통해 큰 발전을 이루어왔음에도 불구하고 대화 답변 생성 모델은 일반적인 답변이나 주어진 질의와 관련 없는 답변을 하는 문제가 빈번하게 발생하고 있다. 이를 해결하기 위해 전통적인 로스 함수를 수정하려는 노력과 대화 생성 모델의 배경 지식 부족 문제를 해결하려는 노력이 있었지만, 이들은 일반적인 답변과 관련 없는 답변 생성을 모두 해결하지 못했다. 본 논문에서는 대화 답변 생성 모델이 질의와 상술한 문제의 원인으로 질의의 핵심을 파악하지 못하는데 들어 질의 토큰 중요도 계산기 사용을 제안한다. 또한 질의자는 청자의 특정한 답변을 유도하며 발화를 설계한다는 이론에 근거하여 질의의 내용 파악을 위해 정답 답변을 이용하는 것을 제안한다. 정성적 평가를 통해 제안하는 모델을 활용한 답변 생성기가 사용하지 않은 모델에 비해 질의와 연관된 답변을 생성할 수 있었음을 확인하였다.

주의집중 메커니즘을 통한 인코더-디코더 기반의 지식 베이스 트리플 활용 문장 생성

최가람, 최성필

http://doi.org/10.5626/JOK.2019.46.9.934

본 논문은 정형화된 구조를 지니는 지식 베이스 트리플(Knowledge Base Triples) 데이터를 활용하여 자연어 형태의 문장 생성 연구를 진행하였다. 트리플을 구체적으로 표현하는 문장 생성을 위해 LSTM(Long Short-term Memory Network) 인코더(Encoder)-디코더(Decoder) 구조를 활용, 주의집중 메커니즘(Attention Mechanism)을 적용하였다. 테스트 데이터에 대해 BLEU, ROUGE 스코어 각각 42.264 (BLEU-1), 32.441(BLEU-2), 26.820(BLEU-3), 24.446(BLEU-4), 47.341(ROUGE-L) 성능을 보였으며, 동일 데이터의 비교 모델에 대해 0.8%(BLEU-1) 상승된 성능을 보였다. 또한 상위 10개의 테스트 데이터 BLEU 스코어 평균 측정 결과 99.393(BLEU-1)로 높은 스코어를 기록하여, 이를 통해 문장 생성 결과가 유의미함을 확인하였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr