검색 : [ keyword: Language Model ] (51)

GPT-3.5 기반 초거대 언어모델을 활용한 보이스피싱 탐지 기법

심주용, 김성환

http://doi.org/10.5626/JOK.2024.51.1.67

본 논문은 GPT(generative pre-trained transformer)-3.5 언어모델 시리즈 중 최근 공개된 모델인 text-davinci-003를 활용한 보이스피싱을 예방 기법을 제안한다. 이를 위해, 대화가 보이스피싱일 가능도를 0~10 사이의 정수로 답변하도록 프롬프트를 설계한다. 프롬프트 조정, 하이퍼파라미터 조정, 성능검증을 위해 실제 한국어 보이스피싱 녹취록 105개와 다양한 주제의 일반 대화 녹취록 704개를 사용한다. 제안한 기법은 통화 중에 보이스피싱 알람을 전송하는 기능과 통화 종료 후 최종적으로 보이스피싱 여부를 판단하는 기능을 포함한다. 훈련용 데이터와 테스트 데이터의 유형을 다르게 하면서 다섯 가지 시나리오에서 성능을 측정하였고 제안한 기법이 0.95~0.97의 정확도를 나타냄을 보인다. 특히 훈련 시 사용한 데이터의 출처와 다른 출처에서 확보한 데이터로 테스트하였을 때, 제안한 기법이 기존 BERT(bidirectional encoder representations from transformer) 모델 기반 기법에 비해 우수한 성능을 보인다.

New Transformer Model to Generate Molecules for Drug Discovery

Yu-Bin Hong, Kyungjun Lee, DongNyenog Heo, Heeyoul Choi

http://doi.org/10.5626/JOK.2023.50.11.976

다양한 생성모델 기반의 신약 후보 생성 방법 중, 회귀적 신경망 (RNNs) 기반의 모델이 최고 성능을 보여왔다. RNN의 장기 의존성 문제를 해결하기 위해 Transformer 기반의 모델이 제안되어왔으나, RNN 기반 모델에 비해서 낮은 성능을 보였는데, Transformer 모델의 과적합 문제가 그 원인일 수 있다. 해당문제를 완화하도록, 본 논문에서는, 큰 decoder 모델을 간단한 순방향 신경망으로 변환하는 모델을 제안한다. 실험결과, 제안된 모델이 기존 최고 성능 모델을 주요 지표들에서 앞서며, 다른 지표에서도 유사한 성능을 보이는 것을 확인했다. 또한, 제안하는 모델을 SARs-CoV-2 (COVID-19) 바이러스에 대항할 수 있는 신약 후보 생성에 적용하였고, 그렇게 생성된 신약 후보군들이 현재 시장에서 사용되는 약들인 Paxlovid, Molnupiravir, Remdesivir들 보다 더 효과적인 실험결과를 확인하였다.

문서 기반 대화 시스템의 외부 지식 검색을 위한 다중 작업 학습 기반 재순위화 모델

이홍희, 고영중

http://doi.org/10.5626/JOK.2023.50.7.606

문서 기반 대화 시스템은 대화에 관련된 외부 문서를 검색하고 해당 문서를 활용해 적절한 응답을 생성한다. 그러나 기존 듀얼 인코더(dual-encoder) 구조의 검색 모델은 문서를 찾는데 낮은 성능을 기록했고, 이를 보완하기 위한 재순위화 모델은 충분히 최적화되지 않은 모습을 보였다. 본 논문에서는 이러한 문제를 해결하고 효과적인 검색을 수행하기 위해 다중 작업 학습 기반 재순위화 모델을 제안한다. 제안 모델은 크로스 인코더(cross-encoder) 구조의 모델로 대조 학습 기반 순위화, MLM(Masked Language Model), PDR(Posterior Differential Regularization)을 미세조정 단계에 동시에 학습하며, 보조 작업인 MLM과 PDR을 통해 모델의 언어 이해 능력과 강건성을 강화하는 방향으로 학습한다. 평가 결과 제안 모델은 베이스라인 모델과 비교했을 때 Recall@1, Recall@5, Recall@10에서 모두 성능 향상을 보였다.

대체 토큰 감지 모델을 통한 대체어 추출

지승현, 이수원

http://doi.org/10.5626/JOK.2023.50.4.321

대체어란 한 문장에서 특정 단어를 대신하여 사용해도 문장의 의미를 훼손하지 않는 단어이며, 이를 추출하는 기술은 데이터 증강 등 다양한 자연어처리 문제에 활용할 수 있다. 기존 대체어 추출 방법은 문맥에 부자연스러운 대체어를 추출할 수 있다는 문제가 있다. 이를 해결하기 위해 본 논문에서는 말뭉치에서 목표 단어가 포함된 문장을 샘플링하여 사전학습 BERT 기반 대체어 후보 생성 모델에 입력하고, 대체 토큰 감지 모델로 부적합한 대체어를 제외하여 대체어를 추출하는 방법을 제안한다. 국립국어원 문어 말뭉치 및 ㈜낱말 기본유의어 사전을 통해 검증한 결과, 본 제안 방법은 기존 방법에 비해 더 정확한 대체어를 추출한다. 또한 부적합한 대체어를 제외하는 모델로 사료될 수 있는 문법성 판단 모델보다 본 연구에서 제안한 대체 토큰 감지 모델의 대체어 추출 성능이 더 뛰어난 것을 확인하였다.

학습 가능한 재순위화 및 응답 필터링 모델을 적용한 오픈 도메인 질의응답 시스템의 성능 향상

신현호, 이명훈, 전홍우, 이재민, 최성필

http://doi.org/10.5626/JOK.2023.50.3.273

딥러닝 기술이 자연어처리에 적용되면서, 사용자 질문에 대상 단락을 미리 준비하지 않은 상황에서도 정답을 찾을 수 있는 오픈 도메인 질의응답에 대한 연구가 활발히 진행되고 있다. 그러나 기존 연구는 키워드 기반 정보 검색을 사용하여 의미론적 매칭에 한계가 존재한다. 이를 보완하기 위해 딥러닝 기반 정보 검색 연구가 진행되고 있으나 실증적으로 실 시스템에 적용한 국내 연구는 아직 많지는 않은 상황이다. 이에 본 논문에서는 한국어 오픈 도메인 질의응답 시스템의 성능을 높이기 위해 2단계 성능 고도화 방법을 제안하였다. 제안된 방법은 검색엔진과 기계독해 모델이 결합된 형태의 베이스라인 시스템에 기계학습 기반의 재순위화 모델과 응답 필터링 모델을 순차적으로 적용하는 방법이다. 베이스라인 시스템의 경우 초기 성능은 F1 스코어 74.43, EM 스코어 60.79이며, 제안된 방법을 활용하였을 때 F1 스코어 82.5, EM 스코어 68.82로 성능이 향상되는 것을 확인하였다.

감정 어휘 사전을 활용한 KcBert 기반 영화 리뷰 말뭉치 감정 분석

장연지, 최지선, 김한샘

http://doi.org/10.5626/JOK.2022.49.8.608

감정 분석은 텍스트 데이터에 표현된 인간이 느끼는 감정을 기쁨, 슬픔, 분노, 놀람, 공포 등의 다양한 감정 유형으로 분류하는 것이다. 본 연구에서는 감정 어휘 사전을 활용하여 영화 리뷰 말뭉치에 표현된 감정을 기쁨, 슬픔, 공포, 분노, 혐오, 놀람, 흥미, 지루함, 통증의 9가지로 분류하여 감정 말뭉치를 구축하고, KcBert에 감정 말뭉치를 학습시켜 모델의 성능을 평가하였다. 감정 말뭉치를 구축하기 위해 심리학 모델을 기반으로 한 감정 어휘 사전을 사용하였는데, 감정 어휘 사전의 어휘와 영화 리뷰 말뭉치에 나타난 감정 어휘가 일치하는지 여부를 판단하고, 영화 리뷰 말뭉치의 마지막에 등장하는 어휘에 일치하는 감정 유형을 주석하였다. 이렇게 구축한 감정 말뭉치를 NSMC로 사전 학습된 KcBert에 학습시켜 그 성능을 평가한 결과, KcBert는 감정을 9가지 유형으로 분류한 모델에서도 우수한 성능을 보였다.

PrefixLM에 기반한 한국어 텍스트 요약

이건희, 나승훈, 임준호, 김태형, 장두성

http://doi.org/10.5626/JOK.2022.49.6.475

본 논문에서는 거대 언어 모델 중 하나인 T5의 인코더-디코더 구조 대비 절반의 크기를 가지는 PrefixLM 구조의 한국어 모델을 학습하여 성능을 확인한다. PrefixLM 모델은 입력과 출력 시퀀스가 단일 시퀀스로 연결되어 트랜스포머 블록에 함께 입력된다. 이때 어텐션 내부 연산 시 사용되는 어텐션 마스크의 변형을 통해 단일 트랜스포머 블록에서 입력 시퀀스 부분은 양방향 어텐션, 출력 시퀀스 부분은 단방향 어텐션이 이루어지도록 조정된다. 이를 통해 인코더와 디코더 역할을 한 레이어에서 수행할 수 있게 된다. 소규모 데이터로 한국어 모델을 여러 방식으로 학습한다. 자연어 처리에서 중요한 태스크 중 하나인 텍스트 생성 요약 태스크에서 기반 모델, 위치 인코딩 방식 등에 따른 성능 차이를 확인한다. BART, T5와 비교하여 각각 2.17, 2.78점의 성능 향상을 보여 PrefixLM 구조가 한국어에서도 충분히 유효함을 보인다.

트위터 코퍼스 선택이 스마트워치 문자 입력의 정확도에 미치는 영향 분석

민구봉, 서진욱

http://doi.org/10.5626/JOK.2022.49.4.321

스마트워치에서 문자 입력을 지원하기 위해서 통계적 디코더를 활용하면 빠르고 정확한 문자입력이 가능하다. 본 논문에서는 자동 고침 기능을 구현하기 위해서 필요한 언어 모델(language model)을 구축하는 데 사용되는 코퍼스(corpus)가 문자 입력의 정확도에 미치는 영향을 분석한다. 언어 모델은 다양한 장르의 글로 이루어진 Brown 코퍼스와 트윗 메시지에서 추출한 Twitter 코퍼스를 사용한다. 우리는 두 언어 모델을 이용하여 문자 입력기의 자동 고침 기능을 위한 통계적 디코더(statistical decoder)를 구성하고 실제 모바일 기기에서 작성한 문구로 이루어진 Enron 모바일 문구를 스마트워치 자판에서 dual Gaussian 분포를 따라 터치하도록 시뮬레이션하였다. 테스트 결과, Brown 코퍼스와 Twitter 코퍼스를 사용하는 경우의 평균 문자 오류율(CER)은 각각 8.35%, 6.44%로 통계적으로 유의한 차이가 있음을 확인하였다.

기계 독해 성능 개선을 위한 데이터 증강 기법

이선경, 최은성, 정선호, 이종욱

http://doi.org/10.5626/JOK.2021.48.12.1298

기계 독해(Machine Reading Comprehension)란 컴퓨터가 주어진 텍스트의 의미를 이해 및 이를 평가하는 방법으로, 자연어 이해를 위한 중요한 기술 중 하나이다. 주어진 글에 대해서 질의가 주어졌을 때, 이에 대한 올바른 응답을 찾는 질의-응답이 가장 대표적인 기계 독해 과제이다. 기계 독해 기술은 최근 심층 인공신경망 기반의 자연어 처리 기술의 발달에 따라 획기적인 성능 개선을 보였다. 그럼에도 불구하고, 주어진 데이터가 희소할 때 성능 개선에 어려움이 있을 수 있다. 이를 해결하기 위해 본 논문에서는 단어 단위 및 문장 단위의 텍스트 편집을 통한 데이터 증강 기법을 활용하여 기존 모델의 변경을 최소화하며 성능 개선을 하고자 한다. 즉, 본 연구에서는 영어 질의응답 데이터에서 가장 널리 활용되고 있는 사전 학습된 언어 모델 기반의 기계 독해 모델에 데이터 증강 기법을 적용하여 기존 모델 대비성능이 향상되는 것을 확인하였다.

상위 클래스 정보와 사전 학습된 언어 모델을 이용한 지식 그래프 완성 모델

장대식, 고영중

http://doi.org/10.5626/JOK.2021.48.11.1228

링크 예측은 지식 그래프에서 누락된 링크를 추론하는 것을 목표로 한다. 최근 지식 그래프를 완성하기 위해 다양한 링크 예측 모델이 연구되었고 의미 있는 결과를 얻었다. 그러나 기존 모델은 학습 트리플의 내재적 정보만 사용하여 학습하기 때문에 과적합 되는 문제가 있다. 이러한 문제를 해결하기 위해, 우리는 개체의 추상적 정보를 학습할 수 있는 상위 클래스 예측과 링크 예측을 multi-task learning 방법으로 수행하는 "상위 클래스 정보와 사전 학습된 언어 모델을 이용한 지식 그래프 완성 모델(HIP)"을 제안한다. HIP의 상위 클래스 예측 작업은 트리플의 문맥적 정보뿐만 아니라 개체의 추상적 정보 학습을 통해 같은 상위 클래스 정보를 갖는 개체들이 비슷한 임베딩을 가지며 개체의 일반적인 정보를 학습한다. 실험 결과 KG-BERT 및 MTL-KGC 모델에 비해 Hits@10과 Mean Rank (MR)에서 의미 있는 성능 향상을 보였다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr