디지털 라이브러리[ 검색결과 ]
검색 : [ keyword: 파레토 최적 ] (1)
한계효용 체감의 법칙을 적용한 강화학습: 다중 에이전트의 효율적이고 평등한 자원 분배
http://doi.org/10.5626/JOK.2025.52.5.374
한계효용 체감의 법칙은 재화를 추가로 소비함에 따라 그로 인해 얻는 효용이 점차 적어진다는 경제학 이론이다. 본 연구는 한정된 자원을 분배하는 다중 에이전트 강화학습의 보상에 한계효용 체감의 법칙을 적용하여 상호 간의 소통 없이 최적의 분배가 이루어질 수 있음을 보인다. 이는 각자의 이기적 행동이 총효용을 극대화한다는 시장 원리를 다중 에이전트 학습에 적용한 것이다. 실험 결과, 그리드 월드에서 두 에이전트가 두 자원을 각자 획득하는 환경에서 한계효용 체감의 법칙을 적용하면 더욱 자원을 평등하고, 파레토 최적에 가깝게 분배한다.