대규모 언어 모델의 소수 검증 능력 심층 평가: ChatGPT와 PaLM 2를 중심으로 


51권  8호, pp. 699-705, 8월  2024
10.5626/JOK.2024.51.8.699


PDF

  요약

이연구는 ChatGPT와 PaLM2, 두 대규모 언어모델의 소수 검증 능력을 심층적으로 조사한다. 하나의 수에 대해 소수인지 합성수인지 반대 형태의 예/아니오 질문 두 개를 묻는다. 두 질문에 대해 모두 정답을 생성한 경우에만 언어 모델이 해당 수에 대해 성공적으로 검증을 수행한 것으로 간주한다. 또 한, 생성 프롬프트 내 나눗셈 연산에 오류가 발생하는지를 고려한다. 소수 664 개 및 합성수 1458 개 데이 터셋에 대한 추론 결과로부터, 대상 숫자의 난도가 증가함에 따라 검증 정확도가 감소함을 발견하였다. 연 산 오류를 반영한 후 검증 정확도는 두 모델에서 모두 감소하였으며, PaLM 2는 난도가 높은 네 자리 합 성수에 대한 검증을 모두 실패하였다. 이 결과는 단순한 질문에 기반한 언어 모델의 추론 능력 평가는 오 해의 소지가 있으며, 심층 평가가 필요함을 시사한다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

H. Jung and K. Park, "In-Depth Evaluations of the Primality Testing Capabilities of Large Language Models: with a Focus on ChatGPT and PaLM 2," Journal of KIISE, JOK, vol. 51, no. 8, pp. 699-705, 2024. DOI: 10.5626/JOK.2024.51.8.699.


[ACM Style]

Hyeonwoo Jung and Kunwoo Park. 2024. In-Depth Evaluations of the Primality Testing Capabilities of Large Language Models: with a Focus on ChatGPT and PaLM 2. Journal of KIISE, JOK, 51, 8, (2024), 699-705. DOI: 10.5626/JOK.2024.51.8.699.


[KCI Style]

정현우, 박건우, "대규모 언어 모델의 소수 검증 능력 심층 평가: ChatGPT와 PaLM 2를 중심으로," 한국정보과학회 논문지, 제51권, 제8호, 699~705쪽, 2024. DOI: 10.5626/JOK.2024.51.8.699.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr