디지털 라이브러리[ 검색결과 ]
검색 : [ author: GaYeon Jung ] (1)
비윤리적 유머를 활용한 LLM 안전성 평가
http://doi.org/10.5626/JOK.2025.52.6.508
본 연구는 한국어 유머 중 사회적으로 위험한 사례를 활용하여 생성형 언어모델의 안전성 평가를 진행한다. 최근 언어모델이 사회적 규범, 윤리에 어긋나는 입력에 대해 그럴듯한 답변을 생성하는 등의 악용 사례가 발생하면서 안전한 인공지능 개발의 중요성이 확대되었다. 이러한 사회적 흐름에서 본 연구는 AI의 잠재적 위험을 식별하고 방어하기 위해 유머 내의 포함된 위험을 분석하고 이를 평가할 수 있는 벤치마크를 개발하여 실험하였다. 위험한 유머는 유희성과 재미, 농담 맥락 속에서 비윤리적이거나 위험한 요소들이 간과된다. 이는 AI 안전성 평가에서 중요하게 다루어지는 교묘하면서도 우회적인 입력 패턴과 유사하여 위험한 유머를 통해 대표적인 생성형 언어모델의 안전성 평가를 수행하였다. 실험은 비윤리적인 유머와 관련한 입력 요청에 대한 생성 결과를 이진 분류한 다음 모델의 안전성 수준을 구분하여 평가를 진행하였다. 연구 결과 모델들은 위험한 유머에 대한 윤리적 판단에 취약한 모습을 보이고 있었다.