검색 : [ keyword: 자연어처리 ] (15)

자연어처리 모델을 이용한 무기체계 소프트웨어 정적시험 거짓경보 저감 연구

이인섭, 남효주, 정남훈, 조규태, 노성규

http://doi.org/10.5626/JOK.2024.51.3.244

최근 무기체계 첨단화 과정에서 소프트웨어 안정성 확보에 대한 필요가 대두된다. 이를 위해 방위사업청에서는 무기체계 소프트웨어를 대상으로 정적 분석 도구를 통해 신뢰성 시험을 수행한다. 하지만 시험 과정에서 많은 거짓경보가 발생하여 시간적, 자원적 낭비가 발생된다. 이를 위해 본 논문은 정적분석 도구의 로그를 활용하여 데이터셋을 만들고, 자연어처리 모델을 훈련시켜 높은 정/오탐 분류율을 달성하는 것을 목표로 하였다. 또한 연구 과정에서 무기체계 소프트웨어의 정적분석 특성에 맞는 데이터 처리 기법 및 모델 구성에 대해 조사 및 분석을 실행하였다. 분석 결과, 하이퍼파라미터 최적화 도구인 Optuna를 활용하여 C/CPP, 자연어로 선행학습 된 CodeBert 모델이 기존 SoTA모델보다 F1 Score 기준 4~5% 높은 성능을 보이는 것을 알 수 있었다. 소프트웨어 정적 시험에서 본 논문에서 제안하는 모델을 일차적으로 사용한다면 많은 수의 오탐이 식별될 수 있다.

계층적 표현 및 레이블 임베딩을 활용한 국내 논문 문장 의미 분류 모델

국희진, 김영화, 윤세휘, 강병하, 신유현

http://doi.org/10.5626/JOK.2024.51.1.41

논문 문장의 의미는 계층적인 구조를 가지며, 하위 카테고리 간에 데이터 불균형이 존재한다. 또한, 논문 문장의 의미는 논문 내에서의 위치와 밀접한 관련이 있다. 기존의 단일 수준 분류 방법은 주로 하위 카테고리만 고려하기 때문에 데이터 불균형으로 인한 분류 정확도 감소 문제가 발생한다. 이에 대응하여, 본 연구에서는 문장의 계층적 의미 분류를 효과적으로 수행하기 위한 계층적 표현 및 레이블 임베딩 방법을 제안한다. 더불어, 논문의 섹션명을 적극적으로 활용하여 논문 문장의 위치 정보를 표현한다. 실험을 통해 KISTI의 국내 논문 문장 의미 태깅 데이터셋에서 계층 정보와 위치 정보를 명시적으로 고려한 제안 방법이 F1 점수에서 우수한 성능을 보임을 확인했다.

메신저 데이터 저자 프로파일링을 위한 한국어 구어체 텍스트 기반 성별 분류 모델

강지혜, 김민호, 권혁철

http://doi.org/10.5626/JOK.2023.50.12.1063

소셜 네트워크 서비스(SNS)를 이용한 의사소통이 폭발적으로 증가함에 따라 메신저 기능을 통해 텍스트 데이터가 방대하게 발생하고 있다. 반면 최근 자연어 처리(Natural Language Processing) 분야의 발전으로 감성 분류, 욕설 탐지, 챗봇 등 다양한 애플리케이션이 개발되어 제공되고 있으나, 한국어 구어체 텍스트에서 발화자의 성별, 연령대와 같은 저자의 다양한 특징을 분류하려는 시도는 전무한 상황이다. 본 연구에서는 한국어 구어체를 활용하여 저자 프로파일링을 위한 성별 분류 모델을 제안한다. 발화자의 성별 분류를 위해 카카오톡 대화 데이터를 기반으로, 한국어 댓글로 학습한 KcBERT(Korean Comments BERT)에 일상대화와 유사한 ‘네이트판(Nate Pan)’ 데이터를 추가로 학습하여 Domain Adaptation을 진행한다. 그 후 어휘 외적인 정보를 결합한 모델로 실험한 결과 약 95%의 정확도를 달성하여 성능이 향상 됨을 보였다. 본 연구에서는 Domain Adaptation을 위해 자체 수집한 ‘네이트판(Nate Pan)’ 데이터 세트와 국립국어원 제공 데이터 세트를 활용하고, 모델의 학습과 평가를 위해서 AI HUB의 ‘한국어 SNS’ 데이터 세트를 이용한다.

효과적인 개인화 결합 방식 및 BERT를 활용한 리뷰 기반 개인화 추천시스템

국희진, 신유현

http://doi.org/10.5626/JOK.2023.50.8.646

일반적으로 리뷰 텍스트에는 사용자의 주관적인 정보들이 포함되어 있으며 사용자가 작성한 리뷰는 같은 표현이더라도 사용자별로 서로 다른 의미를 가질 수 있다. 이런 리뷰의 특징을 이용하여 데이터 희소에 취약한 협업 필터링의 단점을 보완할 수 있으며 개인화 추천시스템을 위한 정보로도 사용할 수 있다. 하지만 자연어처리 분야에서 사전 학습 언어 모델의 성공에도 불구하고, BERT를 활용하여 리뷰를 통해 개별 사용자 특징을 풍부하게 표현하고자 하는 개인화 추천시스템 연구는 많이 이루어지고 있지 않다. 따라서 본 연구에서는 BERT를 사용하여 리뷰로부터 사용자 및 상품별 특징을 깊이 학습하고, 이를 사용자 및 상품 ID와 긴밀하게 결합함으로써 개인화된 사용자 및 상품 표현을 나타내는 평점 예측 모델을 제안한다. 실험을 통해 아마존 벤치마크 데이터셋에 대해 제안하는 모델이 베이스라인보다 향상된 성능을 얻을 수 있음을 보인다.

학습 가능한 재순위화 및 응답 필터링 모델을 적용한 오픈 도메인 질의응답 시스템의 성능 향상

신현호, 이명훈, 전홍우, 이재민, 최성필

http://doi.org/10.5626/JOK.2023.50.3.273

딥러닝 기술이 자연어처리에 적용되면서, 사용자 질문에 대상 단락을 미리 준비하지 않은 상황에서도 정답을 찾을 수 있는 오픈 도메인 질의응답에 대한 연구가 활발히 진행되고 있다. 그러나 기존 연구는 키워드 기반 정보 검색을 사용하여 의미론적 매칭에 한계가 존재한다. 이를 보완하기 위해 딥러닝 기반 정보 검색 연구가 진행되고 있으나 실증적으로 실 시스템에 적용한 국내 연구는 아직 많지는 않은 상황이다. 이에 본 논문에서는 한국어 오픈 도메인 질의응답 시스템의 성능을 높이기 위해 2단계 성능 고도화 방법을 제안하였다. 제안된 방법은 검색엔진과 기계독해 모델이 결합된 형태의 베이스라인 시스템에 기계학습 기반의 재순위화 모델과 응답 필터링 모델을 순차적으로 적용하는 방법이다. 베이스라인 시스템의 경우 초기 성능은 F1 스코어 74.43, EM 스코어 60.79이며, 제안된 방법을 활용하였을 때 F1 스코어 82.5, EM 스코어 68.82로 성능이 향상되는 것을 확인하였다.

긴 문서를 위한 BERT 기반의 End-to-End 한국어 상호참조해결

조경빈, 정영준, 이창기, 류지희, 임준호

http://doi.org/10.5626/JOK.2023.50.1.32

상호참조해결은 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델이 주로 연구되었으나, BERT의 입력 길이 제한으로 긴 문서에 대해서는 성능이 낮아지는 문제가 있다. 따라서, 본 논문에서는 다음의 모델을 제안하였다. 우선 긴 문서를 512 이하의 토큰으로 쪼개어 기존의 Local BERT에서 단어의 1차 문맥 표현을 얻고, 이를 다시 연결하여 원래 문서에 대한 Global Positional Embedding 값을 계산하여 더해준다. 그리고 이렇게 연결된 문맥 표현을 Global BERT layer를 통해 최종적으로 전체 문맥 표현 계산하여 상호참조해결을 수행하였다. 실험 결과, 본 논문에서 제안한 모델이 기존 모델과 유사한 성능을 보이면서, GPU 메모리 사용량은 1.4배 감소하고 속도는 2.1배 향상되었다.

엔그램 사용량 조절을 통한 딥러닝 기반 Chit-chat 대화시스템의 상투적 응답 생성 제어

오재영, 이원기, 방지수, 신재훈, 이종혁

http://doi.org/10.5626/JOK.2022.49.1.60

Chit-chat 대화시스템은 컴퓨터와 사용자 간의 자유로운 대화를 위한 시스템으로, 다양하고 흥미로운 응답을 생성하는 것을 목표로 한다. 그러나 maximum likelihood 기반의 일반적인 학습 방식에서 모델이 짧고, 별다른 의미를 내포하지 않는 상투적인(generic) 응답을 과하게 생성하여 시스템에 대한 사용자의 흥미를 떨어뜨리는 문제가 꾸준히 보고되어 왔다. 이에 최근 unlikelihood training을 통하여 고빈도로 등장하는 단어의 과다한 사용에 페널티를 줌으로써 다양한 응답을 생성하는 학습 방법이 제안되었으나, 이는 각 단어의 사용량에 따라 페널티를 줄 뿐 각 단어가 어떠한 맥락으로 사용되었는지는 고려하지 못하는 한계를 가진다. 이에 본 연구에서는 고빈도로 등장하는 엔그램(n-gram) 사용량을 조절하는 방식을 제안하였다. 제안된 방식은 엔그램 단위로 주변 맥락에 대한 정보를 이용함으로써 응답의 상투적인 정도에 따른 페널티를 보다 섬세하게 줄 수 있다는 이점을 가진다.

뉴럴-심볼릭 구조 기반의 관계 추출

오진영, 차정원

http://doi.org/10.5626/JOK.2021.48.5.533

딥러닝은 자연어처리 분야에서 우수한 성능을 보이고 있다. 하지만 우수한 성능을 달성하려면 많은 학습 데이터와 긴 학습 시간이 필요하다. 우리는 관계 추출 문제에 대하여 뉴럴-심볼릭 방법을 이용하여 적은 학습 데이터 환경에서 딥러닝의 성능을 능가하는 방법을 제안한다. 규칙 결과와 딥러닝 결과와의 불일치도를 사용하는 구조를 설계하였다. 또한 수렴속도를 향상시키기 위해서 논리 규칙 필터링을 제안하고 규칙의 성능을 높이기 위해 문맥을 추가하였다. 제안 구조는 적은 학습 데이터에 대해서 우수한 성능을 보였으며, 빠른 성능 수렴이 이루어지는 것을 확인하였다.

자연어 추론에서의 교차 검증 앙상블 기법

양기수, 황태선, 오동석, 박찬준, 임희석

http://doi.org/10.5626/JOK.2021.48.2.154

앙상블 기법은 여러 모델을 종합하여 최종 판단을 산출하는 기계 학습 기법으로서 딥러닝 모델의 성능 향상을 보장한다. 하지만 대부분의 기법은 앙상블만을 위한 추가적인 모델 또는 별도의 연산을 요구한다. 이에 우리는 앙상블 기법을 교차 검증 방법과 결합하여 앙상블 연산을 위한 비용을 줄이며 일반화 성능을 높이는 교차 검증 앙상블 기법을 제안한다. 본 기법의 효과를 입증하기 위해 MRPC, RTE 데이터셋과 BiLSTM, CNN, ELMo, BERT 모델을 이용하여 기존 앙상블 기법보다 향상된 성능을 보인다. 추가로 교차 검증에서 비롯한 일반화 원리와 교차 검증 변수에 따른 성능 변화에 대하여 논의한다.

KorQuAD 2.0: 웹문서 기계독해를 위한 한국어 질의응답 데이터셋

김영민, 임승영, 이현정, 박소윤, 김명지

http://doi.org/10.5626/JOK.2020.47.6.577

KorQuAD 2.0은 총 100,000+ 쌍으로 구성된 한국어 질의응답 데이터셋이다. 기존 질의응답 표준 데이터인 KorQuAD 1.0과의 차이점은 크게 세가지가 있는데 첫 번째는 주어지는 지문이 한두 문단이 아닌 위키백과 한 페이지 전체라는 점이다. 두 번째로 지문에 표와 리스트도 포함되어 있기 때문에 HTML tag로 구조화된 문서에 대한 이해가 필요하다. 마지막으로 답변이 단어 혹은 구의 단위뿐 아니라 문단, 표, 리스트 전체를 포괄하는 긴 영역이 될 수 있다. Baseline 모델로 공개된 구글 BERT를 활용하여 F1 스코어 46.0%의 성능을 확인하였다. 이는 사람의 F1 점수 85.7%에 비해 매우 낮은 점수로, 본 데이터가 도전적인 과제임을 알 수 있다. 추가적으로 답을 찾을 수 없는 경우에 대한 학습 데이터 증강 방식을 통해 성능을 높였다. 본 데이터의 공개를 통해 평문에 국한되어 있던 질의응답의 대상을 다양한 길이와 형식을 가진 과제로 확장하고자 한다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr