디지털 라이브러리[ 검색결과 ]
장기 대화를 위한 다각적 주의집중 기반 생성 모델
http://doi.org/10.5626/JOK.2025.52.2.117
더욱 사람 같은 대화 모델을 실현하기 위해, 페르소나 메모리를 활용하여 응답을 생성하는 연구들이 활발히 진행되고 있다. 다수의 기존 연구들에서는 메모리로부터 관련된 페르소나를 찾기 위해 별도의 검색 모델을 이용한다. 그러나 이는 전체 시스템에 속도 저하를 일으키고 시스템을 무겁게 만드는 문제가 있다. 또한, 기존 연구들은 페르소나를 잘 반영해 응답하는 능력에만 중점을 두는데, 그 전에 페르소나 참조의 필요성 여부를 판별하는 능력이 선행되어야 한다. 따라서, 본 논문에서는 검색 모델을 활용하지 않고 생성 모델의 내부에서 다각적 주의집중 연산을 통해 메모리의 참조가 필요한지를 판별한다. 참조가 필요하다고 판단한 경우에는 관련된 페르소나를 반영하여 응답하며, 그렇지 않은 경우에는 대화 문맥에 집중하여 응답을 생성한다. 실험 결과를 통해 제안 모델이 장기적인 대화에서 효과적으로 동작함을 확인하였다.
문서 기반 대화 시스템의 외부 지식 검색을 위한 다중 작업 학습 기반 재순위화 모델
http://doi.org/10.5626/JOK.2023.50.7.606
문서 기반 대화 시스템은 대화에 관련된 외부 문서를 검색하고 해당 문서를 활용해 적절한 응답을 생성한다. 그러나 기존 듀얼 인코더(dual-encoder) 구조의 검색 모델은 문서를 찾는데 낮은 성능을 기록했고, 이를 보완하기 위한 재순위화 모델은 충분히 최적화되지 않은 모습을 보였다. 본 논문에서는 이러한 문제를 해결하고 효과적인 검색을 수행하기 위해 다중 작업 학습 기반 재순위화 모델을 제안한다. 제안 모델은 크로스 인코더(cross-encoder) 구조의 모델로 대조 학습 기반 순위화, MLM(Masked Language Model), PDR(Posterior Differential Regularization)을 미세조정 단계에 동시에 학습하며, 보조 작업인 MLM과 PDR을 통해 모델의 언어 이해 능력과 강건성을 강화하는 방향으로 학습한다. 평가 결과 제안 모델은 베이스라인 모델과 비교했을 때 Recall@1, Recall@5, Recall@10에서 모두 성능 향상을 보였다.
AI에 적합한 일반 상식 추론 대화의 자동 생성을 위한 정량적, 정성적 연구
http://doi.org/10.5626/JOK.2023.50.5.407
인간과 비슷한 정도의 일반 상식 추론 능력은 최근 챗봇 및 대화형 에이전트를 위한 자연어 생성의 품질을 향상시키기 위한 필수적인 요소로 인정받고 있다. 그러나 인공지능 시스템에 요구되는 일반상식의 범위에 대한 명확한 합의는 존재하지 않는다. 본 논문은 인공지능에 적합한 일반 상식에 대한 성별과 연령에 따른 태도의 차이와 대화 주제에 따른 반응의 변이를 살펴보기 위한 실험 조사를 수행하고 정량적, 정성적 분석을 통해 인공지능 챗봇 시스템에 필요한 일반 상식이 무엇인지 논의하였다. 이 논문의 의의는 유용한 정보를 제공하면서 적절한 수준의 공감을 보이는 챗봇 대화에 대한 선호도를 구체화하였다는 것이다.
데이터 생성 및 증강 기반의 개체 그래프를 활용한 음성 대화용 대화 상태 추적 모델
http://doi.org/10.5626/JOK.2022.49.10.891
대화 상태 추적은 목적 지향 대화 시스템의 한 부분으로, 대화를 이해하고 사용자의 목적을 이해하기 위해 수행되어야 하는 작업이다. 최근 Dialogue System Track Challenge (DSTC) 10 트랙2는 이를 음성 대화 환경으로 확장하여 음성 발화에 대한 대화 상태 추적 모델의 강건성을 주제로 진행되었다. 트랙2에서 공개한 평가 데이터는 새로운 시나리오의 등장, 3배 많은 개체 수 그리고 음성 인식된 발화로 이루어진 대화라는 특징을 가지고 있다. 본 논문에서는 이러한 데이터에도 강건한 개체 그래프를 활용한 추출 방식의 대화 상태 추적 모델과 새로운 시나리오에 대한 대화 데이터 생성 및 대화 익명화 방식을 활용한 증강 방법을 제안한다. DSTC10 평가 데이터에 대한 평가 결과 베이스라인 모델과 비교했을 때 Joint Goal Accuracy (JGA)와 Slot Accuracy에서 각각 1.7%, 0.57%의 성능 향상이 있음을 확인하였다.
외부 지식의 정형화와 멀티 태스크 학습을 통한 지식 선택 모델
http://doi.org/10.5626/JOK.2022.49.10.884
목적 지향 대화 시스템은 사용자의 질문에 적절한 응답을 생성하기 위해서 체계적으로 구축된 데이터베이스 형태의 외부 지식을 활용한다. 그러나 더욱 적절하고 유창한 응답을 생성하기 위해서 웹 데이터 또는 FAQs와 같은 비정형 텍스트 형태의 외부 지식을 활용할 수 있어야 한다. 본 논문에서는 사전 훈련된 언어모델과 그래프 신경망을 멀티 태스크 학습 방법을 통해 효과적으로 결합한 비정형 텍스트 형태의 외부 지식을 활용하는 목적 지향 대화 시스템을 위한 지식 선택 모델을 제안한다. 제안 모델은 언어정보를 해석하는 능력뿐만 아니라 의존 구문 분석기를 통해 정형화된 외부 지식으로부터 잠재된 구조적 정보를 파악하여 시스템이 외부 지식을 효과적으로 선택할 수 있다. 실험 결과 제안 모델은 사전 학습된 크로스-인코더(cross-encoder)와 바이-인코더(bi-encoder)구조의 언어모델보다 의미 있는 성능 향상을 보였다.
의료 조언을 위한 질문 의도 인식: 학습 데이터 구축 및 의도 분류
http://doi.org/10.5626/JOK.2021.48.8.878
대부분의 과업 지향 대화 시스템에서는 의도 인식과 개체명 인식이 선행되어야 한다. 본 연구에서는 의료 조언이라는 신규 분야에 대한 대화 시스템 구축을 위해 사용자 질문의 의도를 인식하는 문제를 다룬다. 최종 목적에 해당하는 의료 조언을 위해 필요한 의도 카테고리를 정의하는 것에서부터 학습데이터 수집 및 구축, 레이블링을 위한 가이드라인을 상술한다. 질문 의도 인식을 위해 BERT 기반의 분류모델을 사용했으며 한국어 처리를 위해 변형된 KorBERT도 적용한다. 딥러닝 기반의 모델이 본 연구에서 구축한 중규모의 학습 데이터에서도 좋은 성능을 보이는 것을 검증하기 위해 일반적으로 많이 쓰이는 SVM도 비교 모델로 활용하였다. 실험 결과 8개의 의도 카테고리에 대한 f1 점수가 SVM, BERT, KorBERT에서 각기 69%, 78%, 84% 였으며 향후 데이터 보강을 통해 최종 성능을 높일 예정이다.
생성 기반 챗봇에서의 다양한 페르소나 반영 방법
http://doi.org/10.5626/JOK.2021.48.2.160
챗봇은 대화형 인터페이스를 통해 사용자와 상호작용하는 시스템을 말한다. 최근 생성 기반 챗봇 연구가 활발해지면서 개인 특성에 따라 다양한 답변을 하는 챗봇 연구 또한 많아지고 있다. 대표적으로 챗봇에 개인 특성을 반영한 페르소나 챗봇이 있다. 페르소나 챗봇은 개인 특성을 의미하는 페르소나를 반영한 챗봇을 말하며 다양한 서비스에 브랜드 인격을 반영하려는 움직임과 맞물려 크게 주목을 받고 있다. 따라서, 본 논문은 Dual WGAN 생성 기반 챗봇 모델에 페르소나를 세밀하게 반영하는 문장 페르소나 인코더와 테이블 페르소나 인코더를 이용하여 지정한 페르소나에 적합한 응답을 생성할 수 있는 챗봇 모델을 제안한다. 또한, 정량평가와 정성평가를 이용한 모듈별 비교실험과 실험 예제를 통해 제안 모델의 성능을 입증했다.
GuessWhat?! 문제에 대한 분석과 파훼
http://doi.org/10.5626/JOK.2018.45.1.30
GuessWhat?!은 질문자와 답변자로 구성된 두 플레이어가 이미지를 보고 질문자에게 비밀로 감추어진 정답 물체에 대해 예/아니오/잘 모르겠음 셋 중 하나로 묻고 답하며, 정답 물체를 추려 나가는 문제이다. GuessWhat?!은 최근 컴퓨터 비전과 인공지능 대화 시스템의 테스트베드로서 컴퓨터 비전과 인공지능 학계의 많은 관심을 받았다. 본 논문에서, 우리는 GuessWhat?! 게임 프레임워크가 가지는 특성에 대해 논의한다. 더 나아가, 우리는 제안된 틀을 기반으로 GuessWhat?!의 간단한 solution을 제안한다. 사람이 평균 4~5개 정도의 질문을 통하여 맞추는 이 문제에 대하여, 우리가 제안한 방법은 2개의 질문만으로 기존 딥러닝 기반 기술의 성능을 상회하는 성능을 보이며, 5개의 질문이 허용되면 인간 수준의 성능을 능가한다.