검색 : [ author: 김한샘 ] (6)

비윤리적 유머를 활용한 LLM 안전성 평가

강조은, 정가연, 김한샘

http://doi.org/10.5626/JOK.2025.52.6.508

본 연구는 한국어 유머 중 사회적으로 위험한 사례를 활용하여 생성형 언어모델의 안전성 평가를 진행한다. 최근 언어모델이 사회적 규범, 윤리에 어긋나는 입력에 대해 그럴듯한 답변을 생성하는 등의 악용 사례가 발생하면서 안전한 인공지능 개발의 중요성이 확대되었다. 이러한 사회적 흐름에서 본 연구는 AI의 잠재적 위험을 식별하고 방어하기 위해 유머 내의 포함된 위험을 분석하고 이를 평가할 수 있는 벤치마크를 개발하여 실험하였다. 위험한 유머는 유희성과 재미, 농담 맥락 속에서 비윤리적이거나 위험한 요소들이 간과된다. 이는 AI 안전성 평가에서 중요하게 다루어지는 교묘하면서도 우회적인 입력 패턴과 유사하여 위험한 유머를 통해 대표적인 생성형 언어모델의 안전성 평가를 수행하였다. 실험은 비윤리적인 유머와 관련한 입력 요청에 대한 생성 결과를 이진 분류한 다음 모델의 안전성 수준을 구분하여 평가를 진행하였다. 연구 결과 모델들은 위험한 유머에 대한 윤리적 판단에 취약한 모습을 보이고 있었다.

한국어 국회 회의록 생성 요약 말뭉치 구축 및 모델 개발

함영균, 강예지, 박서윤, 정용빈, 서현빈, 이이슬, 서혜진, 서샛별, 김한샘

http://doi.org/10.5626/JOK.2024.51.3.218

요약 연구의 주류는 아직 문서를 대상으로 하지만, 최근에는 회의 요약 연구에 대한 관심이 크게 높아지고 있다. 본 연구는 국립국어원 국어 빅데이터 구축 사업의 일환으로 국내에서 아직 연구되지 않은 국회 회의록 생성 요약에 대해 연구를 진행하였으며, 국회 회의록에 대한 생성 요약 데이터셋을 구축하였다. 구축한 데이터셋의 품질을 검증하기 위해 정성적인 인간 평가를 진행하였다. 또한 생성 요약 모델을 통해 구축된 데이터셋에 대한 정량 및 정성적 평가를 진행함으로써 국회 회의록 요약 데이터셋에 대한 평가 및 향후 생성 요약과 회의록 요약의 연구 방향을 모색하였다.

성격유형별 문체 특성 기반 맞춤형 광고 메시지 자동생성 연구

성지민, 최윤종, 곽도연, 김한샘

http://doi.org/10.5626/JOK.2024.51.1.23

이 연구는 MBTI의 심리 기능지표 조합의 유형별 특징을 반영한 마케팅 문체 프레임워크를 정의하고 모델 학습을 통해 성격유형별 맞춤화 된 광고 메시지를 생성하는 것을 목적으로 한다. 광고 메시지 자동 생성 기술은 BART 모델에 성격유형을 Prefix로 포함한 광고문을 학습시켜 성격유형에 따라 맞춤형 광고 메시지를 생성하는 방식이다. 학습된 모델은 Prefix 조작만으로 MBTI 성격유형별 문체 특징을 갖춘 광고 메시지로 변환되는 것을 실험을 통해 확인할 수 있었다. 본 연구는 성격유형의 특징을 문체 프레임워크로써 정의하고 이에 기반한 모델 학습을 통해 유형별 문체 특징과 소구점을 포함한 광고 메시지를 생성했다는 기술적 가치가 있다. 본 연구는 마케팅 분야에서의 실무적 활용 가능성 뿐만 아니라 지역 및 언어 간 문체 차이를 구조화하거나 재현해야 하는 문제에서 기반이 되는 연구로 활용될 수 있다.

감정 어휘 사전을 활용한 KcBert 기반 영화 리뷰 말뭉치 감정 분석

장연지, 최지선, 김한샘

http://doi.org/10.5626/JOK.2022.49.8.608

감정 분석은 텍스트 데이터에 표현된 인간이 느끼는 감정을 기쁨, 슬픔, 분노, 놀람, 공포 등의 다양한 감정 유형으로 분류하는 것이다. 본 연구에서는 감정 어휘 사전을 활용하여 영화 리뷰 말뭉치에 표현된 감정을 기쁨, 슬픔, 공포, 분노, 혐오, 놀람, 흥미, 지루함, 통증의 9가지로 분류하여 감정 말뭉치를 구축하고, KcBert에 감정 말뭉치를 학습시켜 모델의 성능을 평가하였다. 감정 말뭉치를 구축하기 위해 심리학 모델을 기반으로 한 감정 어휘 사전을 사용하였는데, 감정 어휘 사전의 어휘와 영화 리뷰 말뭉치에 나타난 감정 어휘가 일치하는지 여부를 판단하고, 영화 리뷰 말뭉치의 마지막에 등장하는 어휘에 일치하는 감정 유형을 주석하였다. 이렇게 구축한 감정 말뭉치를 NSMC로 사전 학습된 KcBert에 학습시켜 그 성능을 평가한 결과, KcBert는 감정을 9가지 유형으로 분류한 모델에서도 우수한 성능을 보였다.

문장 의미의 그래프 구조 표상을 위한 한국어 추상 의미 표상 가이드라인 및 말뭉치 구축

최현수, 한지윤, 박혜진, 오태환, 박석원, 김한샘

http://doi.org/10.5626/JOK.2020.47.12.1134

이 논문은 한국어 Abstract Meaning Representation (AMR; 추상 의미 표상) 가이드라인 1.0을 소개한다. AMR은 통합적인 의미 표상 체계로, 의미 분석(semantic parsing)을 위한 주요 프레임워크 중 하나로 자리매김하고 있다. 한국어 AMR 가이드라인은 현행 AMR 1.2.6을 분석하고 이를 한국어의 특성에 맞게 로컬라이징한 것이다. 한국어 AMR 말뭉치는 자연어 이해 기술의 핵심이 되는 의미 파서의 학습 데이터로 활용될 수 있으며, 기계 독해, 자동 요약 등 다양한 자연어 이해 및 생성 기술에 활용될 수 있다. 현재 가이드라인에 따라 구축된 한국어 AMR 말뭉치는 현재 896 문장으로 10,414 어절 규모이다.

대용량 표준 말뭉치 구축을 위한 다수 형태소 분석 결과 통합 방법론

김태영, 류법모, 김한샘, 오효정

http://doi.org/10.5626/JOK.2020.47.6.596

최근 한국어 정보처리를 위한 대용량 언어분석 표준 말뭉치(GS: Gold Standard Set)를 구축하고, 이를 공유 · 확산하기 위한 국가차원의 지원이 이뤄지고 있다. 본 연구는 이러한 말뭉치 구축 사업의 일환으로, 현재 국내에서 개발된 다양한 한국어 언어분석 모듈을 활용하여 공통 정답셋 구축을 위한 방법론을 제안하고자 한다. 특히, 대량의 학습셋을 구축하기 위해 다수의 모듈(N-modules)로부터 제시된 후보정답을 참조, 오류 형태를 분류하여 주요 유형을 반자동으로 보정함으로써 수작업을 최소화하였다. 본 연구에서는 형태소 분석 모듈 적용 결과를 정규화하여 통합 포맷인 U-POS를 기반으로 대용량 한국어 언어분석 표준 말뭉치를 구축하였다. 본 연구를 통해 348,229 문장, 총 9,455,930 어절이 한국어 표준 말뭉치로 구축되었으며, 이는 차후에 한국어 정보처리를 위한 기초 학습자원으로 활용될 수 있다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr