비윤리적 유머를 활용한 LLM 안전성 평가

강조은; 정가연; 김한샘

비윤리적 유머를 활용한 LLM 안전성 평가

강조은

정가연

김한샘

52권 6호, pp. 508-518, 6월 2025

10.5626/JOK.2025.52.6.508

PDF

요약

본 연구는 한국어 유머 중 사회적으로 위험한 사례를 활용하여 생성형 언어모델의 안전성 평가를 진행한다. 최근 언어모델이 사회적 규범, 윤리에 어긋나는 입력에 대해 그럴듯한 답변을 생성하는 등의 악용 사례가 발생하면서 안전한 인공지능 개발의 중요성이 확대되었다. 이러한 사회적 흐름에서 본 연구는 AI의 잠재적 위험을 식별하고 방어하기 위해 유머 내의 포함된 위험을 분석하고 이를 평가할 수 있는 벤치마크를 개발하여 실험하였다. 위험한 유머는 유희성과 재미, 농담 맥락 속에서 비윤리적이거나 위험한 요소들이 간과된다. 이는 AI 안전성 평가에서 중요하게 다루어지는 교묘하면서도 우회적인 입력 패턴과 유사하여 위험한 유머를 통해 대표적인 생성형 언어모델의 안전성 평가를 수행하였다. 실험은 비윤리적인 유머와 관련한 입력 요청에 대한 생성 결과를 이진 분류한 다음 모델의 안전성 수준을 구분하여 평가를 진행하였다. 연구 결과 모델들은 위험한 유머에 대한 윤리적 판단에 취약한 모습을 보이고 있었다.

통계

2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.

논문 참조

[IEEE Style]

J. Kang, G. Jung, H. Kim, "Safety Evaluation of Large Language Models Using Risky Humor," Journal of KIISE, JOK, vol. 52, no. 6, pp. 508-518, 2025. DOI: 10.5626/JOK.2025.52.6.508.

[ACM Style]

JoEun Kang, GaYeon Jung, and HanSaem Kim. 2025. Safety Evaluation of Large Language Models Using Risky Humor. Journal of KIISE, JOK, 52, 6, (2025), 508-518. DOI: 10.5626/JOK.2025.52.6.508.

[KCI Style]

강조은, 정가연, 김한샘, "비윤리적 유머를 활용한 LLM 안전성 평가," 한국정보과학회 논문지, 제52권, 제6호, 508~518쪽, 2025. DOI: 10.5626/JOK.2025.52.6.508.

[Endnote/Zotero/Mendeley (RIS)] Download

[BibTeX] Download

Search

Journal of KIISE

ISSN : 2383-630X(Print)
ISSN : 2383-6296(Electronic)
KCI Accredited Journal

사무국

Tel. +82-2-588-9240
Fax. +82-2-521-1352
E-mail. chwoo@kiise.or.kr

정보과학회논문지

정보과학회논문지

비윤리적 유머를 활용한 LLM 안전성 평가

Search

사무국