정책 기반 강화학습에서의 효율적 탐색을 위한 행동 선택 기법 및 동적 밀집 보상 적용 연구 


52권  4호, pp. 293-303, 4월  2025
10.5626/JOK.2025.52.4.293


PDF

  요약

오늘날 강화학습은 자율주행, 로봇, 게임 등 다양한 분야에서 연구 및 활용되고 있다. 강화학습은 에이전트가 환경과 상호작용하며 최적의 행동 정책을 찾는 것을 목표로 하며, 환경과 문제에 따라 정책 기반 알고리즘과 가치 기반 알고리즘 중 더 적절한 알고리즘이 선택되어 사용된다. 정책 기반 알고리즘은 연속적이고 고차원적인 행동 공간에서 효과적인 학습이 가능하지만, 학습률 파라미터가 학습에 미치는 영향이 크고, 복잡한 환경일수록 최적화된 정책의 수렴 난도가 상승하는 문제점이 존재한다. 본 논문에서는 이러한 문제점을 해결하고자 어닐링 알고리즘을 기반한 행동 선택 기법 및 동적 밀집 보상 설계를 제안한다. 제안된 방식을 두 가지 대표적인 정책 기반 알고리즘인 A2C 알고리즘과 PPO 알고리즘에 적용하여 실험을 진행하였고, 실험 결과, 제안된 방식을 적용한 두 강화학습 알고리즘이 기존 강화학습 알고리즘 대비, 더 높은 성능을 보였다.


  통계
2022년 11월부터 누적 집계
동일한 세션일 때 여러 번 접속해도 한 번만 카운트됩니다. 그래프 위에 마우스를 올리면 자세한 수치를 확인하실 수 있습니다.


  논문 참조

[IEEE Style]

J. Kim, J. Kim, K. Cho, "Research on Action Selection Techniques and Dynamic Dense Reward Application for Efficient Exploration in Policy-Based Reinforcement Learning," Journal of KIISE, JOK, vol. 52, no. 4, pp. 293-303, 2025. DOI: 10.5626/JOK.2025.52.4.293.


[ACM Style]

Junhyuk Kim, Junoh Kim, and Kyungeun Cho. 2025. Research on Action Selection Techniques and Dynamic Dense Reward Application for Efficient Exploration in Policy-Based Reinforcement Learning. Journal of KIISE, JOK, 52, 4, (2025), 293-303. DOI: 10.5626/JOK.2025.52.4.293.


[KCI Style]

김준혁, 김준오, 조경은, "정책 기반 강화학습에서의 효율적 탐색을 위한 행동 선택 기법 및 동적 밀집 보상 적용 연구," 한국정보과학회 논문지, 제52권, 제4호, 293~303쪽, 2025. DOI: 10.5626/JOK.2025.52.4.293.


[Endnote/Zotero/Mendeley (RIS)]  Download


[BibTeX]  Download



Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr