검색 : [ keyword: BERT ] (24)

인용문 및 속성 인코더 혼합 모델 기반 경제 뉴스 맞춤형 감성 분석

최서인, 박대민, 온병원

http://doi.org/10.5626/JOK.2025.52.4.319

뉴스 기사는 정치, 경제, 사회, 문화 등 다양한 주제의 정보를 제공하며, 중립적인 논조를 유지하려는 특성상 기존 감성 분석 모델이 감정을 충분히 포착하지 못하는 한계가 있었다. 이를 해결하기 위해 본 연구에서는 인용문과 기사 속성 값을 결합한 새로운 감성 분석 모델을 제안한다. 감성 분석에는 딥러닝 기반의 BERT와 한국어에 최적화된 KoBERT, KLUE 모델을 사용했으며, 이 모델을 사용한 임베딩 결과를 Mixture of Experts(MoE) 구조로 결합하여 인용문의 감정 정보와 기사 속성 정보를 동시에 학습시켰다. 실험 결과, 제안된 모델 중 속성별 문자열 및 속성 그룹 임베딩 모델이 기존의 인용문 단독 분석 및 전통적 기계 학습 모델에 비해 더 높은 정확도와 신뢰성을 보였다. 특히 KLUE 모델은 한국어 데이터에 최적화되어 있어 성능이 향상되었고, 다양한 속성 정보가 감성 분석 모델의 예측 정확도를 높이는 데 크게 기여함을 확인할 수 있었다. 이는 인용문과 기사 속성 정보를 효과적으로 결합함으로써 중립적인 뉴스 기사에서도 더 정교한 감정 분석이 가능함을 시사한다.

KcBERT를 활용한 한국어 음성인식 텍스트 정확도 향상 연구

민동욱, 남승수, 최대선

http://doi.org/10.5626/JOK.2024.51.12.1115

음성 인식 분야에서는 Whisper, Wav2Vec2.0, Google STT와 같은 모델이 널리 사용되고 있다. 그러나 한국어 음성 인식은 복잡한 음운 규칙과 다양한 발음 변이로 인해 성능 향상에 어려움을 겪는다. 이러한 문제를 해결하기 위해 Whisper 모델과 KcBERT 후처리 방식을 결합한 방법을 제안한다. Whisper 모델이 생성한 텍스트에 대해 KcBERT의 양방향 문맥 학습을 적용하여 문맥적 일관성을 높이고, 보다 자연스러운 텍스트로 교정하기 위해 결합하였다. 실험 결과, 후처리를 통해 lean 환경에서 CER이 5.12%에서 1.88%로, Noise 환경에서 22.65%에서 10.17%로 감소하였다. 또한, WER은 Clean 환경에서 13.29%에서 2.71%, Noise 환경에서 38.98%에서 11.15%로 크게 개선되었다. BERTScore 역시 향상되었으며, 한국어 음성 인식에서의 복잡한 음운 규칙 교정과 텍스트 일관성 유지에 효과적임을 입증하였다.

BERT 기반의 모델을 이용한 무기체계 소프트웨어 정적시험 거짓경보 분류 모델 개발 방법 연구

남효주, 이인섭, 정남훈, 정성윤, 조규태, 노성규

http://doi.org/10.5626/JOK.2024.51.7.620

최근 무기체계에서 소프트웨어의 규모와 복잡도가 커짐에 따라 소프트웨어의 신뢰성 및 안정성 확보가 요구되고 있다. 이를 위해 개발자는 정적 및 동적 신뢰성 시험을 수행해야한다. 하지만 정적시 험 과정에서 많은 거짓 경보들이 발생하여 이를 분석하고 처리하는데 많은 시간과 자원을 할애하고 있다. 기존 연구에서는 이러한 문제를 해결하기 위해 SVM, LSTM 등의 모델을 활용하여 거짓 경보를 분류한 다. 하지만 연구들에서 사용된 모델의 입력값은 코드 관련 정보이거나, Word2Vec기반 코드 임베딩이므로 결함 발생 부분과 연관된 코드 간의 관계를 표현하지 못한다는 한계점이 존재한다. BERT기반의 모델은 양방향 트랜스포머의 적용을 통해 문장 간 앞뒤 관계를 학습하므로 코드 간 관계를 분석하는데 용이하다. 따라서 이를 거짓 경보 분류 문제에 활용하면 위 한계점을 극복할 수 있다. 본 논문에서는 정적시험 결과 를 효율적으로 분석하기 위해 BERT기반의 모델을 활용한 거짓경보 분류 모델 개발 방법을 제안한다. 개 발 환경에서 데이터셋을 구축하는 방법을 설명하고, 실험을 통해 분류 모델의 성능이 우수함을 보인다.

메신저 데이터 저자 프로파일링을 위한 한국어 구어체 텍스트 기반 성별 분류 모델

강지혜, 김민호, 권혁철

http://doi.org/10.5626/JOK.2023.50.12.1063

소셜 네트워크 서비스(SNS)를 이용한 의사소통이 폭발적으로 증가함에 따라 메신저 기능을 통해 텍스트 데이터가 방대하게 발생하고 있다. 반면 최근 자연어 처리(Natural Language Processing) 분야의 발전으로 감성 분류, 욕설 탐지, 챗봇 등 다양한 애플리케이션이 개발되어 제공되고 있으나, 한국어 구어체 텍스트에서 발화자의 성별, 연령대와 같은 저자의 다양한 특징을 분류하려는 시도는 전무한 상황이다. 본 연구에서는 한국어 구어체를 활용하여 저자 프로파일링을 위한 성별 분류 모델을 제안한다. 발화자의 성별 분류를 위해 카카오톡 대화 데이터를 기반으로, 한국어 댓글로 학습한 KcBERT(Korean Comments BERT)에 일상대화와 유사한 ‘네이트판(Nate Pan)’ 데이터를 추가로 학습하여 Domain Adaptation을 진행한다. 그 후 어휘 외적인 정보를 결합한 모델로 실험한 결과 약 95%의 정확도를 달성하여 성능이 향상 됨을 보였다. 본 연구에서는 Domain Adaptation을 위해 자체 수집한 ‘네이트판(Nate Pan)’ 데이터 세트와 국립국어원 제공 데이터 세트를 활용하고, 모델의 학습과 평가를 위해서 AI HUB의 ‘한국어 SNS’ 데이터 세트를 이용한다.

효과적인 개인화 결합 방식 및 BERT를 활용한 리뷰 기반 개인화 추천시스템

국희진, 신유현

http://doi.org/10.5626/JOK.2023.50.8.646

일반적으로 리뷰 텍스트에는 사용자의 주관적인 정보들이 포함되어 있으며 사용자가 작성한 리뷰는 같은 표현이더라도 사용자별로 서로 다른 의미를 가질 수 있다. 이런 리뷰의 특징을 이용하여 데이터 희소에 취약한 협업 필터링의 단점을 보완할 수 있으며 개인화 추천시스템을 위한 정보로도 사용할 수 있다. 하지만 자연어처리 분야에서 사전 학습 언어 모델의 성공에도 불구하고, BERT를 활용하여 리뷰를 통해 개별 사용자 특징을 풍부하게 표현하고자 하는 개인화 추천시스템 연구는 많이 이루어지고 있지 않다. 따라서 본 연구에서는 BERT를 사용하여 리뷰로부터 사용자 및 상품별 특징을 깊이 학습하고, 이를 사용자 및 상품 ID와 긴밀하게 결합함으로써 개인화된 사용자 및 상품 표현을 나타내는 평점 예측 모델을 제안한다. 실험을 통해 아마존 벤치마크 데이터셋에 대해 제안하는 모델이 베이스라인보다 향상된 성능을 얻을 수 있음을 보인다.

어휘의미망을 이용한 주제 분류 및 감성 표현 영역 추출 모델

박지은, 이주상, 신준철, 옥철영

http://doi.org/10.5626/JOK.2023.50.8.700

기존의 감성 분석은 하나의 문장 혹은 문서를 단일 감성으로 분류하지만, 한 문장안에 두 가지 이상의 감성이 존재할 수 있다. 본 논문은 이를 해결하기 위해 어절 단위로 감성 표현 영역을 구분하는 모델을 제안한다. 제안 모델은 주제별 사전으로 예측한 문장의 주제를 모델의 자질로 사용한다. 주제별 사전은 학습 단계 초기에 구축되며, 학습 모듈이 학습 말뭉치에서 주제별 단어를 수집하고 어휘의미망의 상하관계를 이용해 주제별 단어를 확장한다. 제안 모델의 구조는 형태소 분석된 문장을 입력으로 사용하는 UBERT 모델에 주제 분류와 감성 표현 영역을 예측하는 레이어를 추가한 것이다. 평가 방식은 어절 단위 F1-Score를 사용한다. 상술한 문장 주제를 자질로 사용한 제안 모델은 F1-Score이 58.19%까지 나왔으며, baseline보다 0.97% 포인트 향상했다.

문장의 의미적 유사도와 정보량을 사용한 다중 문서 요약

임연수, 권성구, 김봉민, 박성배

http://doi.org/10.5626/JOK.2023.50.7.561

간결한 형식으로 정보를 전달하는 문서 요약 기술은 최근 자연어처리 분야의 중요한 과제로 떠오르고 있다. 하지만, 여러 문서가 주어질 때 이들의 정보를 파악하고 요약하는 다중 문서 요약은 학습에 적합한 데이터가 부족해 연구에 어려움이 있다. 본 논문에서는 이러한 문제를 해결하기 위해 단일 문서에 대한 요약문을 생성한 뒤 요약문을 후처리하는 방식의 다중 문서 요약 모델을 제안한다. 제안 모델은 요약 모듈, 유사도 측정 모듈, 정보량 랭킹 모듈로 이루어져 있다. 다중 문서가 제안 모델에 입력되면 요약 모듈은 각 문서에 대한 요약문을 생성한다. 유사도 측정 모듈에서 생성된 요약문에 대해 의미적 유사도를 측정해 유사한 요약문들을 클러스터링한다. 정보량 랭킹 모듈은 유사한 요약문 그룹에서 가장 정보량이 큰 요약문을 선택하고, 선택된 요약문을 모아 최종 요약문으로 출력한다. 실험을 통해 본 논문에서 제안한 다중 문서 요약 모델과 개별 모듈의 우수성을 확인했다.

형태소 수준의 BERT 임베딩을 통한 한국어 상호참조해결

조경빈, 최요한, 이창기, 류지희, 임준호

http://doi.org/10.5626/JOK.2023.50.6.495

상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 한국어 상호참조해결은 End-to-End 방식으로 주로 연구가 되고 있으며, 이를 위해 모든 스팬을 잠재적인 멘션으로 간주해야 되기 때문에 메모리 사용량과 시간 복잡도가 상승하는 문제가 있다. 본 논문에서는 서브 토큰을 다시 단어단위로 매핑하여 상호참조해결을 수행하는 워드 레벨 상호참조해결 모델을 한국어에 적용하였으며, 한국어 특성을 반영하기 위해 워드 레벨 상호참조해결 모델의 토큰 표현을 CorefBERT를 통해 계산한 후 개체명 자질과 의존 구문 분석 자질을 추가하였다. 실험 결과, ETRI 질의응답 도메인 평가 셋에서 F1 70.68%로, 기존 End-to-End 방식의 상호참조해결 모델 대비 1.67% 성능 향상을 보이면서 메모리 사용량은 2.4배 좋아졌고, 속도는 1.82배 빨라졌다.

PGB: BERT 프루닝을 위한 순서 변경 규칙 및 그룹화

임혜민, 최동완

http://doi.org/10.5626/JOK.2023.50.6.503

최근 사전 학습된 트랜스포머 계열의 모델은 자연어 처리, 이미지 인식 등 다양한 인공지능 분야에서 활발히 사용되고 있다. 그러나 해당 모델들은 수십억 개의 파라미터를 가지고 있어 추론 시에 상당한 연산량을 필요로 하며 자원이 제한된 환경에서 사용하기에는 많은 제약이 따른다. 이러한 문제들을 해결하기 위해 본 논문은 트랜스포머 모델에 대한 그룹화 기반의 새로운 구조화된 프루닝 방법인 PGB(Permutation Grouped BERT pruning)를 제안한다. 제안된 방법은 자원 제약 조건에 따라 최적의 어텐션 순서를 변경하는 방법을 찾고, 모델의 정보 손실을 최소화하기 위해 헤드의 중요도를 기반으로 불필요한 헤드에 대해 프루닝한다. 다양한 비교 실험을 통해 사전 학습된 BERT 모델에 대한 기존의 구조화된 프루닝 방법보다 본 논문에서 제안한 방법이 추론 속도 및 정확도 손실 측면에서 더 우수한 성능을 보임을 확인한다.

PatentQ&A: 트랜스포머 모델을 이용한 신경망 검색 시스템 제안

이윤민, 황태욱, 정상근, 서혜인, 노윤형

http://doi.org/10.5626/JOK.2023.50.4.306

최근 신경망 검색은 통계적 방법에 기반한 검색을 뛰어넘어 의미에 기반한 검색을 가능하게 하며 오타가 있어도 정확한 검색 결과를 찾을 수 있게 한다. 본 논문에서는 특허에 전문 지식이 없는 일반인이 일반 용어를 사용하여 특허 정보를 검색할 경우 사용자 질문 의도에 가장 근접한 답변을 보여주는 신경망 기반 특허 Q&A 검색 시스템을 제안한다. 특허청 홈페이지에 게시된 특허고객 상담 데이터로 특허 데이터 셋을 구축하였다. 사용자가 입력한 질문에 대한 유사한 질문을 추출하고 우선순위를 다시 지정하기 위해 특허 데이터 셋으로 미세조정한 Patent-KoBERT(Triplet)과 Patent-KoBERT(CrossEntropy)를 사용하였다. 실험 결과 Mean Reciprocal Rank(MRR)과 Mean Average Precision(MAP)의 수치는 0.96으로 사용자가 입력한 질문 의도와 가장 유사한 답변을 잘 선정한다는 것을 확인할 수 있다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr